
Meu site está sendo copiado por archive.today. Este site é semelhante ao respeitável archive.org, mas archive.today não obedece ao robots.txt, falsifica um agente de usuário genérico e tenta ocultar seus IPs. O site então regurgita seu conteúdo e indexa-o nos mecanismos de pesquisa.
Responder1
Você pode bloquear o rastreador bloqueando os seguintes intervalos de IP:
78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21
Depois de bloqueá-los, tentar indexar uma página com archive.today deve resultar em um loop infinito no site.
Você pode fazer isso no iptables como:
sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP
sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP
sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP
E imagino que o Apache e o ngix tenham uma maneira de fazer algo semelhante.
archive.today derrotado:
Se você não vir isso, provavelmente eles obtiveram alguns novos IPs.