Wget tendo problemas apenas para salvar os arquivos que desejo - excluir diretórios não parece funcionar

Wget tendo problemas apenas para salvar os arquivos que desejo - excluir diretórios não parece funcionar

Quero baixar todos os gastos do governo acima de £ 500 do Departamento de Energia e Mudanças Climáticas. São arquivos .xls e .xlsx, gerados uma vez por mês. Eles são armazenados em locais como este:

https://www.gov.uk/government/uploads/system/uploads/attachment_data/file/209425/20130627_April_2013_PUS_.xls

onde o número após o arquivo é um número exclusivo e o nome do arquivo não possui consistência de nomenclatura. Esses arquivos são vinculados a páginas mensais individuais que têm o formato:

https://www.gov.uk/government/publications/departmental-spend-over-500-april-2013

que, por sua vez, vincula-se a uma página de índice que é:

https://www.gov.uk/government/collections/departmental-spend-over-500

Este comando funciona:

wget -r --force-html -e robots=off -A xls,xlsx,"" -l 2
https://www.gov.uk/government/collections/departmental-spend-over-500

mas, além dos arquivos .xls e .xlsx, obtenho o diretório completo do site .gov.uk (com uma profundidade de dois links de onde comecei), que baixa aproximadamente 100 MB de arquivos de texto/html diferentes dos arquivos .xls o que é um pouco excessivo. Então minha pergunta é:

Como posso fazer com que o wget seja apenas fonte dos diretórios acima ou, alternativamente, excluir os óbvios que não quero?

Eu tentei os comandos óbvios -I e -X, -D etc, mas sem sorte. NB, eu tive que incluir "" bem como arquivos xls na opção -A, caso contrário, ele ignoraria os arquivos html vinculados ...

Qualquer conselho recebido com gratidão! A propósito, isso está em um Mac.

Responder1

Ha! Finalmente resolvi. Na inclusão você deve incluir o caminho completo para todos os diretórios - mas NÃO o URL:

wget -r -A xls,xlsx,"" -l 2 -I /government/uploads/system/uploads/attachment_data/file/,/government/publications/,/government/collections/departmental-spend-over-500 https://www.gov.uk/government/collections/departmental-spend-over-500

Não é óbvio - bem, não para mim, de qualquer maneira...

(role para a direita na caixa de código para ver tudo)

Editar: Na verdade melhor - eu dividi aqui:

wget -r -A xls,xlsx,"" -l 2 
-I /government/uploads/system/uploads/attachment_data/file/,
   /government/publications/,
   /government/collections/departmental-spend-over-500
https://www.gov.uk/government/collections/departmental-spend-over-500

Linha 1:recursivo, inclui arquivos xls e xlsx e que não possuem extensões (- neste caso arquivos html...) e executa dois níveis a partir de onde especificado na linha 5

Linhas 2-4:inclua esses caminhos/diretórios do URL superior (ou seja, exclua todo o resto)

Linha 5:por onde começar

informação relacionada