
Tengo muchos archivos PDF y necesito descargar todos los hipervínculos que contienen. Intenté abrir el PDF en Firefox y usar Descargarlos todos, pero encuentro que a menudo no los obtengo todos. Entonces, ¿cómo puedo lograr esto?
Respuesta1
¡Interesante pregunta! Soy partidario de las utilidades de línea de comandos siempre que estén disponibles, por lo que en este caso estoy usando lo siguiente:
Ambos son portátiles (PDFtk está disponible sólo como instalador, pero puede copiar pdftk.exe y libiconv2.dll en otro lugar y desinstalarlos si lo desea). Por supuesto, puedes sustituir Wget por cURL o lo que quieras.
Lo siguiente ejecutado desde la línea de comando de Windows descargará todos los documentos/páginas vinculadas desde un PDF:
for /f "tokens=2" %l in ('pdftk Test.pdf dump_data_annots ^| find "AnnotActionURI"') do wget "%l"
Utilice el siguiente comando para varios archivos PDF:
for %f in (*.pdf) do for /f "tokens=2" %l in ('pdftk "%~f" dump_data_annots ^| find "AnnotActionURI"') do wget "%l"