Impedir que archive.today rastreie meu site?

Impedir que archive.today rastreie meu site?

Meu site está sendo copiado por archive.today. Este site é semelhante ao respeitável archive.org, mas archive.today não obedece ao robots.txt, falsifica um agente de usuário genérico e tenta ocultar seus IPs. O site então regurgita seu conteúdo e indexa-o nos mecanismos de pesquisa.

Responder1

Você pode bloquear o rastreador bloqueando os seguintes intervalos de IP:

78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21

Depois de bloqueá-los, tentar indexar uma página com archive.today deve resultar em um loop infinito no site.

Você pode fazer isso no iptables como:

sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP
sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP
sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP

E imagino que o Apache e o ngix tenham uma maneira de fazer algo semelhante.

archive.today derrotado:

insira a descrição da imagem aqui

Se você não vir isso, provavelmente eles obtiveram alguns novos IPs.

informação relacionada