
Estou tentando rastrear um site de letras e fiz um roteiro muito bom (embora seja lento, já que é minha primeira vez)
#!/bin/bash
touch visited
touch tobe
>visited
>tobe
url=$(echo http://www.azlyrics.com/)
UA=$(echo "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/7046A194A")
wget -q $url --user-agent=$(echo UA) -O index.html
cat index.html | grep \"http.*.html\" -o | cut -f2 -d\" >> temp_tobe
for i in `cat temp_tobe`;
do
basename $(echo $i) >> tobe
done
rm temp_tobe
while true;
do
for i in `cat tobe`;
do
echo getting $url -> $i
wget -q $url$i --user-agent=$(echo UA)
echo $i >> visited
#PUT THE NEW LINK TO TOBE
cat $(basename $(echo $url$i)) | grep \".*.html\" -o | cut -f2 -d\" >> tobe
#SORT VISITED
cat visited | sort | uniq > tmp && mv tmp visited
#SORT TOBE
cat tobe | sort | uniq > tmp && mv tmp tobe
#REMOVE THE INTERSECTION FROM TOBE
comm -23 tobe visited > tmp && mv tmp tobe
done
done
Mas acho que fui colocado na lista negra para fazer isso, pois não consigo acessar esse site nem mesmo pelo navegador. Eu iniciei minha VPN mas ainda não consigo acessar o site (ISSO É INSANO!!!) dizendo The connection was reset
sempre
Ouvi falar de uma técnica em que você muda constantemente seu IP (pegando carona em outros usuários online)
Você pode me esclarecer como conseguir isso (de preferência ISTO) OU qualquer outro método para ainda acessar o site
Por favor, peça esclarecimentos se necessário
Responder1
Posso sugerir uma maneira de fazer isso, talvez não seja a melhor, mas funcionará. Use a ferramenta para tor
chamada torify
ou torsocks
em seu script antes wget
:
torify wget -q $url --user-agent=$(echo UA) -O index.html
este comando permitirá que a solicitação seja lançada no servidor, mas, primeiro de tudo você tem que baixar tor
o servidor e depois almoçá-lo, depois preencha gratuitamente para fazer o que quiser com torify
:
Para instalá-lo, por exemplo no CentOS ou Ubunutu:
yum install tor
apt-get install tor
por padrão torify
será instalado.