
Estou tentando baixar arquivos de listas de discussão, como
Em particular, tenho uma página e gostaria de baixar todos os arquivos vinculados a essa página que termina com ".txt.gz". Existe uma maneira de restringir o wget para fazer isso? Na falta disso, uma abordagem alternativa?
Referências
Responder1
Experimente isto:
wget \ --recursivo \ --no-diretórios \ --no-pai \ --nível 1 \ --aceitar .txt.gz \ --execute robôs=desligado \ http://lists.cryolist.org/pipermail/cryolist-cryolist.org/
Usando opções longas para facilitar a leitura.
Responder2
De wget --help
:
-r, --recursive specify recursive download.
-l, --level=NUMBER maximum recursion depth (inf or 0 for infinite).
-A, --accept=LIST comma-separated list of accepted extensions.
Lembrando que os arquivos estão vinculados no iFramelists.cryolist.org/pipermail/cryolist-cryolist.org, o seguinte comando produzirá os resultados desejados:
wget -r -l1 -A "txt.gz" lists.cryolist.org/pipermail/cryolist-cryolist.org
Comuta
A
-r
opção faz o download de outros recursos vinculados.A
-l1
opção limita isso a um nível, ou seja, sepage1
houver links parapage2
epage2
links paraunwanted.txt.gz
, esse arquivo não será baixado.
Responder3
Escreva um script bash, armazene todos os meses em uma matriz, faça um loop entre eles, inserindo-os no comando wget na posição correta