У меня есть сайт электронной коммерции, размещенный на AWS.
Я понимаю, что есть инструменты, которые предотвращают/блокируют парсинг-ботов. Но возможно ли определить, кто парсит мой сайт? Я имею в виду, смогу ли я определить, что запросы поступают от бота, затем найти IP бота и использовать его для идентификации сервера, который парсит мой сайт?
решение1
Уважаемый бот/веб-скрейпер будет идентифицировать себя по заголовку User-Agent (И учитывать robots.txt, если вы хотите управлять его поведением), что упрощает его идентификацию.
Вредоносный бот (который не запрашивает и не уважает ваш robots.txt) может по-прежнему идентифицировать себя с заголовком User-agent, позволяющим вам идентифицировать его, а затем вы можете создавать и применять политики на стороне сервера, чтобы попытаться контролировать его поведение. Когда используется строка User-Agent, идентичная реальному веб-браузеру, вы не можете использовать ее для его идентификации. Тогда может быть довольно сложно отличить запросы от бота от запросов, сделанных реальными пользователями.
Как только вы определите, какие запросы исходят от бота, ваши журналы также будут содержать IP-адрес, который был источником запроса.
Если вы не можете легко идентифицировать запросы как исходящие от бота, помните, что вы обычно делаете свой веб-контент общедоступным и хотите, чтобы его находили и получали доступ. Если ваш сервер не может обрабатывать запросы, исходящие от бота, у вас большие проблемы, поскольку он также не сможет обрабатывать разумное количество одновременных реальных посетителей.