
Estoy intentando descargar archivos de listas de correo como
En particular, tengo una página y me gustaría descargar todos los archivos vinculados desde esa página que terminan en ".txt.gz". ¿Hay alguna manera de restringir wget para hacer esto? En su defecto, ¿un enfoque alternativo?
Referencias
Respuesta1
Prueba esto:
obtener \ --recursivo \ --no-directorios \ --sin padre \ --nivel 1 \ --aceptar .txt.gz \ --ejecutar robots=apagado \ http://lists.cryolist.org/pipermail/cryolist-cryolist.org/
Usar opciones largas para facilitar la lectura.
Respuesta2
De wget --help
:
-r, --recursive specify recursive download.
-l, --level=NUMBER maximum recursion depth (inf or 0 for infinite).
-A, --accept=LIST comma-separated list of accepted extensions.
Teniendo en cuenta que los archivos están vinculados en el iFramelistas.cryolist.org/pipermail/cryolist-cryolist.org, el siguiente comando producirá los resultados deseados:
wget -r -l1 -A "txt.gz" lists.cryolist.org/pipermail/cryolist-cryolist.org
interruptores
El
-r
interruptor hace que se descarguen otros recursos a los que están vinculados.El
-l1
interruptor limita esto a un nivel, es decir, sipage1
se vincula apage2
ypage2
se vincula aunwanted.txt.gz
, este archivo no se descargará.
Respuesta3
Escriba un script bash, almacene todos los meses en una matriz, recorralos insertándolos en el comando wget en la posición correcta