阻止 archive.today 抓取我的網站?

阻止 archive.today 抓取我的網站?

我的網站被 archive.today 抓取。該網站與信譽良好的 archive.org 類似,但 archive.today 不遵守 robots.txt,欺騙通用用戶代理並試圖隱藏其 IP。然後,該網站會重新整理您的內容並在搜尋引擎中建立索引。

答案1

您可以透過封鎖下列 IP 範圍來封鎖爬網程式:

78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21

一旦你阻止了這些,嘗試使用 archive.today 索引頁面應該會導致其網站上出現無限循環。

您可以在 iptables 中執行此操作,例如:

sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP
sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP
sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP

我想 Apache 和 ngix 有辦法做類似的事情。

archive.today 擊敗:

在此輸入影像描述

如果您沒有看到這一點,他們可能已經獲得了一些新的 IP。

相關內容