archive.today によるサイトのクロールをブロックしますか?

archive.today によるサイトのクロールをブロックしますか?

私のウェブサイトは archive.today によってスクレイピングされています。このサイトは評判の良い archive.org に似ていますが、archive.today は robots.txt に従わず、一般的なユーザー エージェントを偽装し、IP を隠そうとします。その後、サイトはあなたのコンテンツを逆抽出し、検索エンジンにインデックス付けします。

答え1

次の IP 範囲をブロックすることでクローラーをブロックできます。

78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21

これらをブロックすると、archive.today を使用してページをインデックスしようとすると、そのサイトで無限ループが発生します。

次のように iptables で実行できます:

sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP
sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP
sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP

そして、Apache と ngix にも同様のことを実行する方法があると思います。

archive.today が敗北:

ここに画像の説明を入力してください

これが表示されない場合は、新しい IP が取得された可能性があります。

関連情報