Como posible solución paraotro problema, ¿es posible hacerwget
imprimirlas URL que encuentra en el documento de destino que¿Considera como requisitos de página?Prefiero no crear código de raspado para la tarea simple en la que estoy trabajando.
Respuesta1
Podrías hacer algo como:
wget -nv -p -nd --delete-after <url>
Lo que generará algo como:
2017-06-01 21:37:41 URL:<url> [19101] -> "index.html.3" [1]
2017-06-01 21:37:42 URL:<url>robots.txt [24/24] -> "robots.txt" [1]
2017-06-01 21:37:42 URL:<url>rc/1502.css [19106/19106] -> "1502.css" [1]
2017-06-01 21:37:42 URL:<url>favicon.ico [5390/5390] -> "favicon.ico" [1]
2017-06-01 21:37:42 URL:<url>avatar/nopic.jpg [893/893] -> "nopic.jpg
Eso podría convertirse o filtrarse rápidamente a algo que se adapte a sus necesidades.