如何不斷更換IP,避免被網站抓取列入黑名單?

如何不斷更換IP,避免被網站抓取列入黑名單?

我正在嘗試抓取歌詞網站並製作了相當不錯的腳本(儘管運行緩慢,因為這是我第一次)

#!/bin/bash

touch visited
touch tobe

>visited
>tobe

url=$(echo http://www.azlyrics.com/)
UA=$(echo "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/7046A194A")

wget -q $url --user-agent=$(echo UA) -O index.html
cat index.html | grep \"http.*.html\" -o | cut -f2 -d\" >> temp_tobe

for i in `cat temp_tobe`;
do
    basename $(echo $i) >> tobe
done

rm temp_tobe

while true;
do
for i in `cat tobe`;
do
    echo getting $url -> $i
    wget -q $url$i --user-agent=$(echo UA)
    echo $i >> visited

    #PUT THE NEW LINK TO TOBE
    cat $(basename $(echo $url$i)) | grep \".*.html\" -o | cut -f2 -d\" >> tobe

    #SORT VISITED
    cat visited | sort | uniq > tmp && mv tmp visited

    #SORT TOBE
    cat tobe | sort | uniq > tmp && mv tmp tobe

    #REMOVE THE INTERSECTION FROM TOBE
    comm -23 tobe visited > tmp && mv tmp tobe

done
done

但我認為我已被列入黑名單,因為我什至無法從瀏覽器訪問該網站。我啟動了我的 VPN,但仍然無法訪問該網站(這太瘋狂了!!!)The connection was reset每次都說

我聽說過一種不斷更改 IP 的技術(搭載其他線上用戶)

您能否告訴我如何實現此目標(最好是這個)或任何其他仍然可以訪問該網站的方法

如果需要,請要求澄清

答案1

我可以建議一種方法來做到這一點,也許它不是最好的,但它可以完成工作。在您的腳本中使用tor呼叫torify或先前的工具:torsockswget

torify wget -q $url --user-agent=$(echo UA) -O index.html

這個命令會讓請求扔到伺服器上,但是,首先你必須下載tor伺服器然後午餐它,之後填充免費做你想做的事情torify

要安裝它,例如在 CentOS 或 Ubunutu 上:

yum install tor
apt-get install tor

預設情況下torify將安裝。

相關內容