
Мой сайт скрейпит archive.today. Этот сайт похож на уважаемый archive.org, но archive.today не подчиняется robots.txt, подделывает общий user-agent и пытается скрыть свои IP. Затем сайт продолжает изрыгать ваш контент и индексировать его в поисковых системах.
решение1
Вы можете заблокировать сканер, заблокировав следующие диапазоны IP-адресов:
78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21
После того, как вы заблокируете их, попытка индексировать страницу с помощью archive.today приведет к бесконечному циклу на их сайте.
Это можно сделать в iptables следующим образом:
sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP
sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP
sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP
И я полагаю, что Apache и ngix могут сделать что-то подобное.
archive.today победил:
Если вы этого не видите, вероятно, у них появились новые IP-адреса.