wget はページの依存関係 URL を *印刷* できますか?

wget はページの依存関係 URL を *印刷* できますか?

回避策としては別の問題、作ることは可能ですか?wget 印刷対象文書内で見つかったURLはページの要件として考慮されますか?私が取り組んでいる単純なタスクのためにスクレイピング コードを構築したくありません。

答え1

次のようなことができます:

wget -nv -p -nd --delete-after <url>

次のような出力が出力されます:

2017-06-01 21:37:41 URL:<url> [19101] -> "index.html.3" [1]
2017-06-01 21:37:42 URL:<url>robots.txt [24/24] -> "robots.txt" [1]
2017-06-01 21:37:42 URL:<url>rc/1502.css [19106/19106] -> "1502.css" [1]
2017-06-01 21:37:42 URL:<url>favicon.ico [5390/5390] -> "favicon.ico" [1]
2017-06-01 21:37:42 URL:<url>avatar/nopic.jpg [893/893] -> "nopic.jpg

それをすぐに変換したり、ニーズに合ったものにフィルタリングしたりできます。

関連情報