크롤링을 위해 웹사이트의 블랙리스트에 오르지 않도록 IP를 지속적으로 변경하는 방법은 무엇입니까?

크롤링을 위해 웹사이트의 블랙리스트에 오르지 않도록 IP를 지속적으로 변경하는 방법은 무엇입니까?

가사 웹사이트를 크롤링하려고 하는데 꽤 좋은 스크립트를 만들었습니다(처음이라서 실행 속도가 느리긴 하지만).

#!/bin/bash

touch visited
touch tobe

>visited
>tobe

url=$(echo http://www.azlyrics.com/)
UA=$(echo "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/7046A194A")

wget -q $url --user-agent=$(echo UA) -O index.html
cat index.html | grep \"http.*.html\" -o | cut -f2 -d\" >> temp_tobe

for i in `cat temp_tobe`;
do
    basename $(echo $i) >> tobe
done

rm temp_tobe

while true;
do
for i in `cat tobe`;
do
    echo getting $url -> $i
    wget -q $url$i --user-agent=$(echo UA)
    echo $i >> visited

    #PUT THE NEW LINK TO TOBE
    cat $(basename $(echo $url$i)) | grep \".*.html\" -o | cut -f2 -d\" >> tobe

    #SORT VISITED
    cat visited | sort | uniq > tmp && mv tmp visited

    #SORT TOBE
    cat tobe | sort | uniq > tmp && mv tmp tobe

    #REMOVE THE INTERSECTION FROM TOBE
    comm -23 tobe visited > tmp && mv tmp tobe

done
done

하지만 브라우저에서도 해당 사이트에 액세스할 수 없기 때문에 블랙리스트에 등록된 것 같습니다. VPN을 시작했지만 여전히 사이트에 액세스할 수 없습니다(이건 미친 짓이에요!!!)라고 The connection was reset항상 말합니다.

IP를 지속적으로 변경하는 기술(온라인에서 다른 사용자 뒤에 편승)에 대해 들었습니다.

이를 달성하는 방법(이것을 선호함) 또는 웹사이트에 계속 액세스할 수 있는 다른 방법을 알려주실 수 있습니까?

필요한 경우 설명을 요청하세요.

답변1

나는 이를 위한 한 가지 방법을 제안할 수 있습니다. 아마도 그것이 최선은 아닐 수도 있지만 그 일을 할 것입니다. 이전에 tor호출된 도구 torifytorsocks스크립트에서 도구를 사용하십시오 wget.

torify wget -q $url --user-agent=$(echo UA) -O index.html

이 명령을 사용하면 요청이 서버에 전달되지만, 먼저 tor서버를 다운로드한 다음 점심을 먹은 다음 원하는 작업을 자유롭게 수행해야 합니다 torify.

예를 들어 CentOS 또는 Ubunutu에 설치하려면 다음을 수행하십시오.

yum install tor
apt-get install tor

기본적으로 torify설치됩니다.

관련 정보