
Archive.today está eliminando mi sitio web. Este sitio es similar al prestigioso archive.org, pero archive.today no obedece a robots.txt, falsifica un agente de usuario genérico e intenta ocultar sus IP. Luego, el sitio procede a regurgitar su contenido y a indexarlo en los motores de búsqueda.
Respuesta1
Puede bloquear el rastreador bloqueando los siguientes rangos de IP:
78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21
Una vez que los bloquee, intentar indexar una página con archive.today debería resultar en un bucle sin fin en su sitio.
Puedes hacerlo en iptables como:
sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP
sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP
sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP
E imagino que Apache y ngix tienen una manera de hacer algo similar.
archive.today derrotado:
Si no ve esto, probablemente tengan algunas IP nuevas.