Limitando arquivos com wget

Limitando arquivos com wget

Estou tentando baixar arquivos de listas de discussão, como

http://cryolist.org/archives/

Em particular, tenho uma página e gostaria de baixar todos os arquivos vinculados a essa página que termina com ".txt.gz". Existe uma maneira de restringir o wget para fazer isso? Na falta disso, uma abordagem alternativa?

Referências

http://www.gnu.org/software/wget/manual/html_node/

Responder1

Experimente isto:

wget \
    --recursivo \
    --no-diretórios \
    --no-pai \
    --nível 1 \
    --aceitar .txt.gz \
    --execute robôs=desligado \
    http://lists.cryolist.org/pipermail/cryolist-cryolist.org/

Usando opções longas para facilitar a leitura.

Responder2

De wget --help:

-r,  --recursive          specify recursive download.
-l,  --level=NUMBER       maximum recursion depth (inf or 0 for infinite).
-A,  --accept=LIST        comma-separated list of accepted extensions.

Lembrando que os arquivos estão vinculados no iFramelists.cryolist.org/pipermail/cryolist-cryolist.org, o seguinte comando produzirá os resultados desejados:

wget -r -l1 -A "txt.gz" lists.cryolist.org/pipermail/cryolist-cryolist.org

Comuta

  • A -ropção faz o download de outros recursos vinculados.

  • A -l1opção limita isso a um nível, ou seja, se page1houver links para page2e page2links para unwanted.txt.gz, esse arquivo não será baixado.

Responder3

Escreva um script bash, armazene todos os meses em uma matriz, faça um loop entre eles, inserindo-os no comando wget na posição correta

informação relacionada