.png)
Ich brauche Hilfe.
Ich habe eine Webserver-VM (LAN, nicht im Internet), sie hat 2 Wikis:
Ich möchte nur die Hausaufgaben-Wiki-Seiten abrufen, ohne in das GameWiki zu kriechen?
Mein Ziel ist es, mit wget nur die HTML-Dateien abzurufen (alle anderen Dateien, Bilder usw. ignorieren). (Ich möchte keinen MySQLDump- oder MediaWiki-Export durchführen, sondern wget für meinen (nicht in der IT tätigen) Chef, der nur auf die HTML-Datei doppelklicken möchte.)
Wie kann ich wget ausführen, um auf dieser VM nur das HomeWorkWiki und nicht das GameWiki zu crawlen?
Danke
Antwort1
Die Lösung bestand entweder darin, httrack zu verwenden und den Assistenten sorgfältig anzupassen, oder diesen brillanten Einzeiler mit wget:
echo "robots = aus" > ~/robots.txt ; wget --mirror --convert-links --html-extension --no-parent --wait=0 "http://10.168.0.4/GameWiki"