Wie kann ich die IP ständig ändern, um zu vermeiden, dass ich beim Crawlen auf die schwarze Liste der Website stoße?

Wie kann ich die IP ständig ändern, um zu vermeiden, dass ich beim Crawlen auf die schwarze Liste der Website stoße?

Ich versuche, eine Songtext-Website zu crawlen und habe ein ziemlich gutes Skript erstellt (es läuft allerdings langsam, da ich das zum ersten Mal mache).

#!/bin/bash

touch visited
touch tobe

>visited
>tobe

url=$(echo http://www.azlyrics.com/)
UA=$(echo "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/7046A194A")

wget -q $url --user-agent=$(echo UA) -O index.html
cat index.html | grep \"http.*.html\" -o | cut -f2 -d\" >> temp_tobe

for i in `cat temp_tobe`;
do
    basename $(echo $i) >> tobe
done

rm temp_tobe

while true;
do
for i in `cat tobe`;
do
    echo getting $url -> $i
    wget -q $url$i --user-agent=$(echo UA)
    echo $i >> visited

    #PUT THE NEW LINK TO TOBE
    cat $(basename $(echo $url$i)) | grep \".*.html\" -o | cut -f2 -d\" >> tobe

    #SORT VISITED
    cat visited | sort | uniq > tmp && mv tmp visited

    #SORT TOBE
    cat tobe | sort | uniq > tmp && mv tmp tobe

    #REMOVE THE INTERSECTION FROM TOBE
    comm -23 tobe visited > tmp && mv tmp tobe

done
done

Aber ich glaube, ich bin dafür auf die schwarze Liste gesetzt worden, da ich nicht einmal über den Browser auf die Site zugreifen kann. Ich starte mein VPN, kann aber immer noch nicht auf die Site zugreifen (DAS IST WAHNSINN!!!) und sage The connection was resetjedes Mal

Ich habe von einer Technik gehört, bei der man ständig seine IP-Adresse ändert (man kann sich hinter anderen Benutzern im Internet verstecken).

Können Sie mir erklären, wie ich das erreichen kann (vorzugsweise DIES) ODER wie ich auf eine andere Weise auf die Website zugreifen kann?

Bitte fragen Sie bei Bedarf nach

Antwort1

Ich kann Ihnen eine Möglichkeit vorschlagen, das zu tun. Sie ist vielleicht nicht die beste, aber sie funktioniert. Verwenden Sie das Tool für „ torCalled“ torifyoder torsocksin Ihrem Skript vorher wget:

torify wget -q $url --user-agent=$(echo UA) -O index.html

Dieser Befehl leitet die Anfrage an den Tor-Server weiter. Zunächst müssen Sie jedoch den torServer herunterladen und ihn dann starten. Danach können Sie tun, was Sie möchten torify:

So installieren Sie es beispielsweise auf CentOS oder Ubuntu:

yum install tor
apt-get install tor

wird standardmäßig torifyinstalliert.

verwandte Informationen