%20mit%20OSX%3F.png)
Ich versuche, Daten von einer Website zu „erfassen“.
Gibt es eine Möglichkeit, ein Programm einfach auf eine URL zu verweisen und alles in dieser Domäne abzurufen? Wie gehe ich dabei unter OSX 10.5 vor? Wenn es wirklich nötig ist, kann ich als letzte Möglichkeit eine Ubuntu- oder Windows-Box verwenden.
Antwort1
wget
Sie können den folgenden Befehl verwenden :zum Download verfügbar für Mac OS Xin den meisten Linux-Distributionen enthalten, um den gesamten Inhalt einer Website herunterzuladen: Bilder, CSS, JavaScript, Videos, Flash-Dateien usw.
Sobald Sie es haben, öffnen Sie ein Terminal. Sie möchten es wahrscheinlich so aufrufen:
wget -r -l0 -k http://www.example.com/
Das wird heruntergeladenallesvon http://www.example.com/
über Links erreichbar. Die -r
Option aktiviert rekursives Herunterladen, sodass mehr als nur die Startseite heruntergeladen wird. Die -l
Option legt fest, wie viele Seiten tief nach Links gesucht und heruntergeladen werden soll 0
. Wenn ich es auf einstell, wird so weit wie möglich gesucht. Beachten Sie, dass bei einer Website mit dynamischer Seitengenerierung viel heruntergeladen werden kann, da viele URLs auf denselben oder sehr ähnlichen Inhalt verweisen können. Der -k
Befehl ist optional und konvertiert wget
alle Links, Bild-Tags usw. an den richtigen Speicherort auf Ihrem lokalen Computer, sodass Sie sie mit einem Webbrowser auf Ihrem Computer anzeigen können und alles ordnungsgemäß funktioniert.
Beachten Sie, dass nur Dateien heruntergeladen werden vonwww.beispiel.com, keine anderen Domänen. Wenn Sie möchten, dass es zu anderen Domänen geht, schalten Sie -H
es mit dem Schalter ein und verwenden Sie dann den Optionsschalter, -D
um die anderen Domänen zu definieren, von denen heruntergeladen werden soll (z. B. -D comments.example.com,beta.example.com
). Seien Sie vorsichtig, wenn Sie den Schalter ausgeschaltet lassen -D
und /infinite einstellen, -l
könnten 0
Sie versuchen, das gesamte World Wide Web herunterzuladen!
Ein weiterer möglicherweise hilfreicher Schalter ist der -N
Schalter, der den Zeitstempel der lokalen Datei auf die vom HTTP-Header auf dem Server bereitgestellte Zeit setzt Last-Modified
und bei nachfolgenden Downloads keine Dateien herunterlädt, die nicht geändert wurden.
Weitere Informationen finden Sie unterdie wget
Dokumentation.