Заблокировать archive.today от сканирования моего сайта?

Заблокировать archive.today от сканирования моего сайта?

Мой сайт скрейпит archive.today. Этот сайт похож на уважаемый archive.org, но archive.today не подчиняется robots.txt, подделывает общий user-agent и пытается скрыть свои IP. Затем сайт продолжает изрыгать ваш контент и индексировать его в поисковых системах.

решение1

Вы можете заблокировать сканер, заблокировав следующие диапазоны IP-адресов:

78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21

После того, как вы заблокируете их, попытка индексировать страницу с помощью archive.today приведет к бесконечному циклу на их сайте.

Это можно сделать в iptables следующим образом:

sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP
sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP
sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP

И я полагаю, что Apache и ngix могут сделать что-то подобное.

archive.today победил:

введите описание изображения здесь

Если вы этого не видите, вероятно, у них появились новые IP-адреса.

Связанный контент