Limitar archivos con wget

Limitar archivos con wget

Estoy intentando descargar archivos de listas de correo como

http://cryolist.org/archives/

En particular, tengo una página y me gustaría descargar todos los archivos vinculados desde esa página que terminan en ".txt.gz". ¿Hay alguna manera de restringir wget para hacer esto? En su defecto, ¿un enfoque alternativo?

Referencias

http://www.gnu.org/software/wget/manual/html_node/

Respuesta1

Prueba esto:

obtener \
    --recursivo \
    --no-directorios \
    --sin padre \
    --nivel 1 \
    --aceptar .txt.gz \
    --ejecutar robots=apagado \
    http://lists.cryolist.org/pipermail/cryolist-cryolist.org/

Usar opciones largas para facilitar la lectura.

Respuesta2

De wget --help:

-r,  --recursive          specify recursive download.
-l,  --level=NUMBER       maximum recursion depth (inf or 0 for infinite).
-A,  --accept=LIST        comma-separated list of accepted extensions.

Teniendo en cuenta que los archivos están vinculados en el iFramelistas.cryolist.org/pipermail/cryolist-cryolist.org, el siguiente comando producirá los resultados deseados:

wget -r -l1 -A "txt.gz" lists.cryolist.org/pipermail/cryolist-cryolist.org

interruptores

  • El -rinterruptor hace que se descarguen otros recursos a los que están vinculados.

  • El -l1interruptor limita esto a un nivel, es decir, si page1se vincula a page2y page2se vincula a unwanted.txt.gz, este archivo no se descargará.

Respuesta3

Escriba un script bash, almacene todos los meses en una matriz, recorralos insertándolos en el comando wget en la posición correcta

información relacionada