
가사 웹사이트를 크롤링하려고 하는데 꽤 좋은 스크립트를 만들었습니다(처음이라서 실행 속도가 느리긴 하지만).
#!/bin/bash
touch visited
touch tobe
>visited
>tobe
url=$(echo http://www.azlyrics.com/)
UA=$(echo "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/7046A194A")
wget -q $url --user-agent=$(echo UA) -O index.html
cat index.html | grep \"http.*.html\" -o | cut -f2 -d\" >> temp_tobe
for i in `cat temp_tobe`;
do
basename $(echo $i) >> tobe
done
rm temp_tobe
while true;
do
for i in `cat tobe`;
do
echo getting $url -> $i
wget -q $url$i --user-agent=$(echo UA)
echo $i >> visited
#PUT THE NEW LINK TO TOBE
cat $(basename $(echo $url$i)) | grep \".*.html\" -o | cut -f2 -d\" >> tobe
#SORT VISITED
cat visited | sort | uniq > tmp && mv tmp visited
#SORT TOBE
cat tobe | sort | uniq > tmp && mv tmp tobe
#REMOVE THE INTERSECTION FROM TOBE
comm -23 tobe visited > tmp && mv tmp tobe
done
done
하지만 브라우저에서도 해당 사이트에 액세스할 수 없기 때문에 블랙리스트에 등록된 것 같습니다. VPN을 시작했지만 여전히 사이트에 액세스할 수 없습니다(이건 미친 짓이에요!!!)라고 The connection was reset
항상 말합니다.
IP를 지속적으로 변경하는 기술(온라인에서 다른 사용자 뒤에 편승)에 대해 들었습니다.
이를 달성하는 방법(이것을 선호함) 또는 웹사이트에 계속 액세스할 수 있는 다른 방법을 알려주실 수 있습니까?
필요한 경우 설명을 요청하세요.
답변1
나는 이를 위한 한 가지 방법을 제안할 수 있습니다. 아마도 그것이 최선은 아닐 수도 있지만 그 일을 할 것입니다. 이전에 tor
호출된 도구 torify
나 torsocks
스크립트에서 도구를 사용하십시오 wget
.
torify wget -q $url --user-agent=$(echo UA) -O index.html
이 명령을 사용하면 요청이 서버에 전달되지만, 먼저 tor
서버를 다운로드한 다음 점심을 먹은 다음 원하는 작업을 자유롭게 수행해야 합니다 torify
.
예를 들어 CentOS 또는 Ubunutu에 설치하려면 다음을 수행하십시오.
yum install tor
apt-get install tor
기본적으로 torify
설치됩니다.