
Meine Website wird von archive.today gescrapt. Diese Site ähnelt der seriösen archive.org, aber archive.today beachtet robots.txt nicht, fälscht einen generischen User-Agent und versucht, seine IPs zu verbergen. Die Site gibt dann Ihren Inhalt wieder und indexiert ihn in Suchmaschinen.
Antwort1
Sie können den Crawler blockieren, indem Sie die folgenden IP-Bereiche blockieren:
78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21
Wenn Sie diese blockieren, sollte der Versuch, eine Seite mit archive.today zu indizieren, zu einer Endlosschleife auf deren Site führen.
Sie können dies in iptables wie folgt tun:
sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP
sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP
sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP
Und ich kann mir vorstellen, dass Apache und Ngix über eine Möglichkeit verfügen, etwas Ähnliches zu tun.
archive.today besiegt:
Wenn Sie dies nicht sehen, haben sie wahrscheinlich neue IPs.