
Ich versuche, eine Songtext-Website zu crawlen und habe ein ziemlich gutes Skript erstellt (es läuft allerdings langsam, da ich das zum ersten Mal mache).
#!/bin/bash
touch visited
touch tobe
>visited
>tobe
url=$(echo http://www.azlyrics.com/)
UA=$(echo "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/7046A194A")
wget -q $url --user-agent=$(echo UA) -O index.html
cat index.html | grep \"http.*.html\" -o | cut -f2 -d\" >> temp_tobe
for i in `cat temp_tobe`;
do
basename $(echo $i) >> tobe
done
rm temp_tobe
while true;
do
for i in `cat tobe`;
do
echo getting $url -> $i
wget -q $url$i --user-agent=$(echo UA)
echo $i >> visited
#PUT THE NEW LINK TO TOBE
cat $(basename $(echo $url$i)) | grep \".*.html\" -o | cut -f2 -d\" >> tobe
#SORT VISITED
cat visited | sort | uniq > tmp && mv tmp visited
#SORT TOBE
cat tobe | sort | uniq > tmp && mv tmp tobe
#REMOVE THE INTERSECTION FROM TOBE
comm -23 tobe visited > tmp && mv tmp tobe
done
done
Aber ich glaube, ich bin dafür auf die schwarze Liste gesetzt worden, da ich nicht einmal über den Browser auf die Site zugreifen kann. Ich starte mein VPN, kann aber immer noch nicht auf die Site zugreifen (DAS IST WAHNSINN!!!) und sage The connection was reset
jedes Mal
Ich habe von einer Technik gehört, bei der man ständig seine IP-Adresse ändert (man kann sich hinter anderen Benutzern im Internet verstecken).
Können Sie mir erklären, wie ich das erreichen kann (vorzugsweise DIES) ODER wie ich auf eine andere Weise auf die Website zugreifen kann?
Bitte fragen Sie bei Bedarf nach
Antwort1
Ich kann Ihnen eine Möglichkeit vorschlagen, das zu tun. Sie ist vielleicht nicht die beste, aber sie funktioniert. Verwenden Sie das Tool für „ tor
Called“ torify
oder torsocks
in Ihrem Skript vorher wget
:
torify wget -q $url --user-agent=$(echo UA) -O index.html
Dieser Befehl leitet die Anfrage an den Tor-Server weiter. Zunächst müssen Sie jedoch den tor
Server herunterladen und ihn dann starten. Danach können Sie tun, was Sie möchten torify
:
So installieren Sie es beispielsweise auf CentOS oder Ubuntu:
yum install tor
apt-get install tor
wird standardmäßig torify
installiert.