오늘 내 사이트를 크롤링하여 archive.today를 차단하시겠습니까?

오늘 내 사이트를 크롤링하여 archive.today를 차단하시겠습니까?

내 웹사이트가 archive.today에 의해 스크랩되고 있습니다. 이 사이트는 평판이 좋은 archive.org와 유사하지만 archive.today는 robots.txt를 따르지 않고 일반 사용자 에이전트를 스푸핑하고 해당 IP를 숨기려고 했습니다. 그런 다음 사이트는 귀하의 콘텐츠를 역류시키고 검색 엔진으로 색인을 생성합니다.

답변1

다음 IP 범위를 차단하여 크롤러를 차단할 수 있습니다.

78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21

이를 차단한 후 archive.today를 사용하여 페이지를 색인화하려고 하면 해당 사이트에서 무한 루프가 발생하게 됩니다.

iptables에서는 다음과 같이 할 수 있습니다:

sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP
sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP
sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP

그리고 나는 Apache와 ngix가 비슷한 일을 할 수 있는 방법을 가지고 있다고 상상합니다.

archive.today 패배:

여기에 이미지 설명을 입력하세요

이 내용이 표시되지 않으면 아마도 새로운 IP를 얻은 것일 수 있습니다.

관련 정보