Wie bringe ich wget dazu, eine CGI-Datei hinter robots.txt herunterzuladen?

Wie bringe ich wget dazu, eine CGI-Datei hinter robots.txt herunterzuladen?

Als Beispiel -http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22.

Ich habe einen Weg gefunden, die Robots.txt-Einschränkungen zu umgehen, aber selbst dann wird nur eine Binärdatei heruntergeladen, die nicht lesbar ist.

Antwort1

wget --user-agent=Mozilla \
  "http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22"

Antwort2

Von demwget-Handbuchauf gnu.org

Wenn Sie wissen, was Sie tun, und die Robots-Ausnahme wirklich ausschalten möchten, setzen Sie die Robots-Variable in Ihrer .wgetrc auf „off“. Sie können denselben Effekt auch über die Befehlszeile mit dem Schalter -e erzielen, z. B. „wget -e robots=off url...“.

Antwort3

Nach mehreren Versuchen mit: --user-agent | robots=off ohne Ausgabe und durch Überprüfen eines Hex-Dumps der Ausgabe.

Ich hatte Erfolg, indem ich die Dateiausgabe anhand des folgenden Beispiels in das HTML-Format gesendet habe.

Versuche dies:

wget --user-agent=Mozilla \ -e robots=off "http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22" -O -O cgi-converted-to-htmlfile.html

Zu Ihrer InformationDie--user-agent=Mozilla \ -e robots=aus ist alles auf der gleichen Linie

Möglichkeit-e Roboter=aus deaktiviert die Beachtung der Server robots.txt

Möglichkeit-O cgi-in-htmlfile.html konvertiert gibt die Datei im HTML-Dateiformat an den Dateinamen aus

cgi-in-htmlfile.html konvertiert

Viel Glück, ich hoffe, es ist das, wonach Sie suchen.

verwandte Informationen