Tenho um site de comércio eletrônico hospedado na AWS.
Entendo que existem ferramentas que impedem/bloqueiam os bots de raspagem. Mas é possível detectar quem está copiando meu site? Quero dizer, eu seria capaz de detectar as solicitações provenientes de um bot, encontrar o IP do bot e usá-lo para identificar o servidor que está copiando meu site?
Responder1
O honorável bot/webscraper se identificará com um cabeçalho User-Agent (E honrará um robots.txt se você quiser direcionar seu comportamento), facilitando a identificação.
Um bot malicioso (que não está solicitando e honrando seu robots.txt) ainda pode se identificar com um cabeçalho User-agent, permitindo identificá-lo e então você pode criar e aplicar políticas do lado do servidor para tentar controlar seu comportamento. Quando usa uma string User-Agent idêntica a um navegador real, você não pode usá-la para identificá-lo. Então pode ser muito difícil distinguir as solicitações de um bot daquelas feitas por usuários reais.
Depois de determinar quais solicitações vêm de um bot, seus logs também conterão o endereço IP que foi a origem da solicitação.
Quando você não consegue identificar prontamente as solicitações provenientes de um bot, lembre-se de que normalmente você torna seu conteúdo da web público e deseja que ele seja encontrado e acessado. Se o seu servidor não conseguir lidar com as solicitações provenientes de um bot, você terá problemas maiores, pois também não será capaz de lidar com um número razoável de visitantes reais simultâneos.