
Estoy intentando rastrear un sitio web de letras y he creado un script bastante bueno (aunque funciona con lentitud ya que es mi primera vez).
#!/bin/bash
touch visited
touch tobe
>visited
>tobe
url=$(echo http://www.azlyrics.com/)
UA=$(echo "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/7046A194A")
wget -q $url --user-agent=$(echo UA) -O index.html
cat index.html | grep \"http.*.html\" -o | cut -f2 -d\" >> temp_tobe
for i in `cat temp_tobe`;
do
basename $(echo $i) >> tobe
done
rm temp_tobe
while true;
do
for i in `cat tobe`;
do
echo getting $url -> $i
wget -q $url$i --user-agent=$(echo UA)
echo $i >> visited
#PUT THE NEW LINK TO TOBE
cat $(basename $(echo $url$i)) | grep \".*.html\" -o | cut -f2 -d\" >> tobe
#SORT VISITED
cat visited | sort | uniq > tmp && mv tmp visited
#SORT TOBE
cat tobe | sort | uniq > tmp && mv tmp tobe
#REMOVE THE INTERSECTION FROM TOBE
comm -23 tobe visited > tmp && mv tmp tobe
done
done
Pero creo que me han incluido en la lista negra para hacer esto porque no puedo acceder a ese sitio ni siquiera desde el navegador. Inicio mi VPN pero todavía no puedo acceder al sitio (¡¡¡ESTO ES UNA LOCURA!!!) diciendo The connection was reset
cada vez
He oído hablar de una técnica en la que cambias constantemente tu IP (aprovechando a otros usuarios en línea)
¿Puede explicarme cómo lograr esto (preferiblemente ESTE) O cualquier otro método para seguir accediendo al sitio web?
Por favor solicite una aclaración si es necesario.
Respuesta1
Puedo sugerir una forma de hacerlo, tal vez no sea la mejor, pero funcionará. Utilice la herramienta para tor
llamar torify
o torsocks
en su script antes wget
:
torify wget -q $url --user-agent=$(echo UA) -O index.html
este comando permitirá que la solicitud vaya al servidor tor, pero, antes que nada, debe descargar tor
el servidor y luego ejecutarlo, luego llénelo libremente para hacer lo que quiera con torify
:
Para instalarlo, por ejemplo en CentOS o Ubuntu:
yum install tor
apt-get install tor
torify
Se instalará de forma predeterminada .