Blockieren Sie archive.today vom Crawlen meiner Site?

Blockieren Sie archive.today vom Crawlen meiner Site?

Meine Website wird von archive.today gescrapt. Diese Site ähnelt der seriösen archive.org, aber archive.today beachtet robots.txt nicht, fälscht einen generischen User-Agent und versucht, seine IPs zu verbergen. Die Site gibt dann Ihren Inhalt wieder und indexiert ihn in Suchmaschinen.

Antwort1

Sie können den Crawler blockieren, indem Sie die folgenden IP-Bereiche blockieren:

78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21

Wenn Sie diese blockieren, sollte der Versuch, eine Seite mit archive.today zu indizieren, zu einer Endlosschleife auf deren Site führen.

Sie können dies in iptables wie folgt tun:

sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP
sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP
sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP

Und ich kann mir vorstellen, dass Apache und Ngix über eine Möglichkeit verfügen, etwas Ähnliches zu tun.

archive.today besiegt:

Bildbeschreibung hier eingeben

Wenn Sie dies nicht sehen, haben sie wahrscheinlich neue IPs.

verwandte Informationen