![Wget tiene problemas para guardar los archivos que quiero: excluir directorios no parece funcionar](https://rvso.com/image/1452243/Wget%20tiene%20problemas%20para%20guardar%20los%20archivos%20que%20quiero%3A%20excluir%20directorios%20no%20parece%20funcionar.png)
Quiero descargar todo el gasto gubernamental superior a £500 por parte del Departamento de Energía y Cambio Climático. Estos son archivos .xls y .xlsx, generados una vez al mes. Se almacenan en lugares como este:
https://www.gov.uk/government/uploads/system/uploads/attachment_data/file/209425/20130627_April_2013_PUS_.xls
donde el número después del archivo es un número único y el nombre del archivo no tiene coherencia en el nombre. Estos archivos están vinculados desde páginas mensuales individuales que tienen el formulario:
https://www.gov.uk/government/publications/departmental-spend-over-500-april-2013
que a su vez enlaza desde una página de índice que es:
https://www.gov.uk/government/collections/departmental-spend-over-500
Este comando funciona:
wget -r --force-html -e robots=off -A xls,xlsx,"" -l 2
https://www.gov.uk/government/collections/departmental-spend-over-500
pero además de los archivos .xls y .xlsx, obtengo el directorio completo del sitio .gov.uk (hasta una profundidad de dos enlaces desde donde comencé) que descarga ~100 MB de archivos de texto/html distintos de los archivos .xls. lo cual es un poco excesivo. Entonces mi pregunta es:
¿Cómo puedo hacer que wget solo sea fuente de los directorios anteriores o, alternativamente, excluir los obvios que no quiero?
Probé los comandos obvios -I y -X, -D, etc., pero no tuve suerte. NB, tuve que incluir "" así como archivos xls en el modificador -A, de lo contrario ignoraría los archivos html de enlace...
¡Cualquier consejo recibido con gratitud! Esto está en una Mac por cierto.
Respuesta1
¡Ja! Finalmente lo resolví. En la inclusión debe incluir la ruta completa de todos los directorios, pero NO la URL:
wget -r -A xls,xlsx,"" -l 2 -I /government/uploads/system/uploads/attachment_data/file/,/government/publications/,/government/collections/departmental-spend-over-500 https://www.gov.uk/government/collections/departmental-spend-over-500
No es obvio, bueno, al menos no para mí...
(desplácese hacia la derecha en el cuadro de código para verlo todo)
Editar: En realidad mejor. Lo he dividido aquí:
wget -r -A xls,xlsx,"" -l 2
-I /government/uploads/system/uploads/attachment_data/file/,
/government/publications/,
/government/collections/departmental-spend-over-500
https://www.gov.uk/government/collections/departmental-spend-over-500
Línea 1:recursivo, incluya xls y xlsx y archivos que no tengan extensiones (- en este caso archivos html...) y haga dos niveles desde donde se especifica en la línea 5
Líneas 2-4:incluya estas rutas/directorios desde la URL superior (es decir, excluya todo lo demás)
Línea 5:por donde empezar