![Wget tendo problemas apenas para salvar os arquivos que desejo - excluir diretórios não parece funcionar](https://rvso.com/image/1452243/Wget%20tendo%20problemas%20apenas%20para%20salvar%20os%20arquivos%20que%20desejo%20-%20excluir%20diret%C3%B3rios%20n%C3%A3o%20parece%20funcionar.png)
Quero baixar todos os gastos do governo acima de £ 500 do Departamento de Energia e Mudanças Climáticas. São arquivos .xls e .xlsx, gerados uma vez por mês. Eles são armazenados em locais como este:
https://www.gov.uk/government/uploads/system/uploads/attachment_data/file/209425/20130627_April_2013_PUS_.xls
onde o número após o arquivo é um número exclusivo e o nome do arquivo não possui consistência de nomenclatura. Esses arquivos são vinculados a páginas mensais individuais que têm o formato:
https://www.gov.uk/government/publications/departmental-spend-over-500-april-2013
que, por sua vez, vincula-se a uma página de índice que é:
https://www.gov.uk/government/collections/departmental-spend-over-500
Este comando funciona:
wget -r --force-html -e robots=off -A xls,xlsx,"" -l 2
https://www.gov.uk/government/collections/departmental-spend-over-500
mas, além dos arquivos .xls e .xlsx, obtenho o diretório completo do site .gov.uk (com uma profundidade de dois links de onde comecei), que baixa aproximadamente 100 MB de arquivos de texto/html diferentes dos arquivos .xls o que é um pouco excessivo. Então minha pergunta é:
Como posso fazer com que o wget seja apenas fonte dos diretórios acima ou, alternativamente, excluir os óbvios que não quero?
Eu tentei os comandos óbvios -I e -X, -D etc, mas sem sorte. NB, eu tive que incluir "" bem como arquivos xls na opção -A, caso contrário, ele ignoraria os arquivos html vinculados ...
Qualquer conselho recebido com gratidão! A propósito, isso está em um Mac.
Responder1
Ha! Finalmente resolvi. Na inclusão você deve incluir o caminho completo para todos os diretórios - mas NÃO o URL:
wget -r -A xls,xlsx,"" -l 2 -I /government/uploads/system/uploads/attachment_data/file/,/government/publications/,/government/collections/departmental-spend-over-500 https://www.gov.uk/government/collections/departmental-spend-over-500
Não é óbvio - bem, não para mim, de qualquer maneira...
(role para a direita na caixa de código para ver tudo)
Editar: Na verdade melhor - eu dividi aqui:
wget -r -A xls,xlsx,"" -l 2
-I /government/uploads/system/uploads/attachment_data/file/,
/government/publications/,
/government/collections/departmental-spend-over-500
https://www.gov.uk/government/collections/departmental-spend-over-500
Linha 1:recursivo, inclui arquivos xls e xlsx e que não possuem extensões (- neste caso arquivos html...) e executa dois níveis a partir de onde especificado na linha 5
Linhas 2-4:inclua esses caminhos/diretórios do URL superior (ou seja, exclua todo o resto)
Linha 5:por onde começar