
Estoy usando wget para recuperar archivos pdf particulares dehttp://www.aph.gov.au/
Sólo quiero recuperar los expedientes Hansard (transcripciones de las actuaciones de la Cámara).
Dos escenarios:
- Hay una página donde se enumeran las transcripciones de Hansard:
http://www.aph.gov.au/Parliamentary_Business/Hansard/Hansreps_2011
Al hacer clic en un enlace de día/fecha en esta página se obtiene una respuesta a una consulta de base de datos que muestra enlaces a más archivos. Solo quiero recuperar el archivo indicado por 'Descargar Hansard actual', que es la transcripción de todo el día (no quiero recuperar los 'fragmentos').
Puedo hacer clic en la respuesta a la consulta, recopilar las URL para la transcripción de todo el día, empaquetarlas en un archivo y recuperarlas usando wget -i.
Estoy buscando una manera de utilizar wget para obtener únicamente las transcripciones de todo el día.
- Solo algunos años se enumeran en la página. Sin embargo, si va a la base de datos y realiza una búsqueda avanzada en Hansard, luego hace clic en los rangos de décadas en la parte superior izquierda de la pantalla y luego en un año, se obtiene una lista de diferentes días de ese año. Nuevamente, el enlace de nivel superior que se muestra no muestra el pdf de la transcripción de todo el día, pero al hacer clic en el título se muestra una página que muestra un enlace a la transcripción de todo el día.
Me gustaría usar wget para recuperar solo los archivos PDF de la transcripción de todo el día.
Cualquier consejo será bienvenido. Estoy avanzando con el método "semimanual", pero es lento y requiere mucha mano de obra.
Respuesta1
No podrás hacer esto usando solo wget
.
Deberá crear una secuencia de comandos que tome la primera página con los enlaces de fecha y luego analice la página para encontrar la URL correcta. Luego, el script tomaría la página en esa URL y la analizaría en busca de la URL del PDF.
Esto se podría hacer usando un script de Python personalizado que use elhermosa sopabiblioteca.