¿Cómo automatizar la descarga de archivos?

Question 1

Puede especificar un archivo html de entrada con

wget -F -i <file>

por lo que podrías simplemente volcar los archivos html y recorrerlos
(agregué una URL base para enlaces relativos):

for i in <whereYouDumpedFiles>/*.html
do
  wget -F -B <base-url> -i $i
done

alternativamente

puedes simplemente volcar los enlaces a un archivo (separados por nuevas líneas) mediante cualquier método y hacer esto:

wget -i <url-file>

una buena forma de acceder a esos enlaces sería:

lynx -hiddenlinks=ignore -nonumbers -listonly --dump <relevant-url> \
 | sort | uniq | sed /<regexp-pattern-of-urls-you-want>/\!d

posiblemente en un bucle for que se agrega al 'archivo URL'

Answer

Puede especificar un archivo html de entrada con

wget -F -i <file>

por lo que podrías simplemente volcar los archivos html y recorrerlos
(agregué una URL base para enlaces relativos):

for i in <whereYouDumpedFiles>/*.html
do
  wget -F -B <base-url> -i $i
done

alternativamente

puedes simplemente volcar los enlaces a un archivo (separados por nuevas líneas) mediante cualquier método y hacer esto:

wget -i <url-file>

una buena forma de acceder a esos enlaces sería:

lynx -hiddenlinks=ignore -nonumbers -listonly --dump <relevant-url> \
 | sort | uniq | sed /<regexp-pattern-of-urls-you-want>/\!d

posiblemente en un bucle for que se agrega al 'archivo URL'

Question 2

Usar Python podría ser más fácil. Entonces esta es una solución que usa Python. Si Python no es una opción para usted, ignórelo. :)

Supongo que raspar el sitio web es legal.

Escriba un script de Python simple para recorrerlo archive_bookname/index.1-177.htmy deséchelo usandohermosasopa, ubique los enlaces con selectores de clases CSS o con una simple coincidencia de expresiones regulares, luego useurllib.urlretrieve()para obtener los archivos. Así es como lo haría.

Answer

Usar Python podría ser más fácil. Entonces esta es una solución que usa Python. Si Python no es una opción para usted, ignórelo. :)

Supongo que raspar el sitio web es legal.

Escriba un script de Python simple para recorrerlo archive_bookname/index.1-177.htmy deséchelo usandohermosasopa, ubique los enlaces con selectores de clases CSS o con una simple coincidencia de expresiones regulares, luego useurllib.urlretrieve()para obtener los archivos. Así es como lo haría.

Question 3

O simplemente puedes usar Perl y su brillante módulo llamado www::mechanize. Es realmente sencillo armar algo y hay toneladas de ejemplos en la documentación oficial de CPAN.

Answer

O simplemente puedes usar Perl y su brillante módulo llamado www::mechanize. Es realmente sencillo armar algo y hay toneladas de ejemplos en la documentación oficial de CPAN.

¿Cómo automatizar la descarga de archivos?

Respuesta1

Respuesta2

Respuesta3

información relacionada