Как определить, кто копирует мой сайт?

Question

Уважаемый бот/веб-скрейпер будет идентифицировать себя по заголовку User-Agent (И учитывать robots.txt, если вы хотите управлять его поведением), что упрощает его идентификацию.

Вредоносный бот (который не запрашивает и не уважает ваш robots.txt) может по-прежнему идентифицировать себя с заголовком User-agent, позволяющим вам идентифицировать его, а затем вы можете создавать и применять политики на стороне сервера, чтобы попытаться контролировать его поведение. Когда используется строка User-Agent, идентичная реальному веб-браузеру, вы не можете использовать ее для его идентификации. Тогда может быть довольно сложно отличить запросы от бота от запросов, сделанных реальными пользователями.

Как только вы определите, какие запросы исходят от бота, ваши журналы также будут содержать IP-адрес, который был источником запроса.

Если вы не можете легко идентифицировать запросы как исходящие от бота, помните, что вы обычно делаете свой веб-контент общедоступным и хотите, чтобы его находили и получали доступ. Если ваш сервер не может обрабатывать запросы, исходящие от бота, у вас большие проблемы, поскольку он также не сможет обрабатывать разумное количество одновременных реальных посетителей.

Answer 1

Уважаемый бот/веб-скрейпер будет идентифицировать себя по заголовку User-Agent (И учитывать robots.txt, если вы хотите управлять его поведением), что упрощает его идентификацию.

Вредоносный бот (который не запрашивает и не уважает ваш robots.txt) может по-прежнему идентифицировать себя с заголовком User-agent, позволяющим вам идентифицировать его, а затем вы можете создавать и применять политики на стороне сервера, чтобы попытаться контролировать его поведение. Когда используется строка User-Agent, идентичная реальному веб-браузеру, вы не можете использовать ее для его идентификации. Тогда может быть довольно сложно отличить запросы от бота от запросов, сделанных реальными пользователями.

Как только вы определите, какие запросы исходят от бота, ваши журналы также будут содержать IP-адрес, который был источником запроса.

Если вы не можете легко идентифицировать запросы как исходящие от бота, помните, что вы обычно делаете свой веб-контент общедоступным и хотите, чтобы его находили и получали доступ. Если ваш сервер не может обрабатывать запросы, исходящие от бота, у вас большие проблемы, поскольку он также не сможет обрабатывать разумное количество одновременных реальных посетителей.

Как определить, кто копирует мой сайт?

решение1

Связанный контент