Als mögliche Lösung fürEin anderes Problemist es möglich,wget
druckendie URLs, die es im Zieldokument findet,gilt es als Seitenvoraussetzung?Für die einfache Aufgabe, an der ich arbeite, möchte ich lieber keinen Scraping-Code erstellen.
Antwort1
Sie könnten beispielsweise Folgendes tun:
wget -nv -p -nd --delete-after <url>
Die Ausgabe lautet etwa:
2017-06-01 21:37:41 URL:<url> [19101] -> "index.html.3" [1]
2017-06-01 21:37:42 URL:<url>robots.txt [24/24] -> "robots.txt" [1]
2017-06-01 21:37:42 URL:<url>rc/1502.css [19106/19106] -> "1502.css" [1]
2017-06-01 21:37:42 URL:<url>favicon.ico [5390/5390] -> "favicon.ico" [1]
2017-06-01 21:37:42 URL:<url>avatar/nopic.jpg [893/893] -> "nopic.jpg
Dies könnte schnell konvertiert oder in etwas gefiltert werden, das Ihren Anforderungen entspricht.