
Als Beispiel -http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22.
Ich habe einen Weg gefunden, die Robots.txt-Einschränkungen zu umgehen, aber selbst dann wird nur eine Binärdatei heruntergeladen, die nicht lesbar ist.
Antwort1
wget --user-agent=Mozilla \
"http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22"
Antwort2
Von demwget-Handbuchauf gnu.org
Wenn Sie wissen, was Sie tun, und die Robots-Ausnahme wirklich ausschalten möchten, setzen Sie die Robots-Variable in Ihrer .wgetrc auf „off“. Sie können denselben Effekt auch über die Befehlszeile mit dem Schalter -e erzielen, z. B. „wget -e robots=off url...“.
Antwort3
Nach mehreren Versuchen mit: --user-agent | robots=off ohne Ausgabe und durch Überprüfen eines Hex-Dumps der Ausgabe.
Ich hatte Erfolg, indem ich die Dateiausgabe anhand des folgenden Beispiels in das HTML-Format gesendet habe.
Versuche dies:
wget --user-agent=Mozilla \ -e robots=off "http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22" -O -O cgi-converted-to-htmlfile.html
Zu Ihrer InformationDie--user-agent=Mozilla \ -e robots=aus ist alles auf der gleichen Linie
Möglichkeit-e Roboter=aus deaktiviert die Beachtung der Server robots.txt
Möglichkeit-O cgi-in-htmlfile.html konvertiert gibt die Datei im HTML-Dateiformat an den Dateinamen aus
cgi-in-htmlfile.html konvertiert
Viel Glück, ich hoffe, es ist das, wonach Sie suchen.