¿Cómo consigo que wget descargue un archivo cgi detrás de robots.txt?

¿Cómo consigo que wget descargue un archivo cgi detrás de robots.txt?

Como ejemplo -http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22.

Encontré una manera de superar las restricciones de robots.txt, pero aun así, simplemente descarga un archivo binario que nada puede leer.

Respuesta1

wget --user-agent=Mozilla \
  "http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22"

Respuesta2

Desde elmanual de wgeten gnu.org

Si sabe lo que está haciendo y realmente desea desactivar la exclusión de robots, configure la variable robots en "desactivado" en su .wgetrc. Puede lograr el mismo efecto desde la línea de comando usando el modificador -e, por ejemplo, 'wget -e robots=off url...'.

Respuesta3

Después de varios intentos usando: --user-agent | robots=off sin salida y comprobando un volcado hexadecimal de la salida.

Tuve éxito: al enviar el archivo de salida al formato HTML usando el siguiente ejemplo

Prueba esto:

wget --user-agent=Mozilla \ -e robots=off "http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22" -O -O cgi-converted-to-htmlfile.html

Para su informaciónel--user-agent=Mozilla \ -e robots=apagado está todo en la misma línea

opción-e robots=apagado desactivará el respeto a los servidores robots.txt

opción-O cgi-convertido-a-htmlfile.html generará el archivo como formato de archivo html al nombre de archivo

cgi-convertido-a-htmlfile.html

Buena suerte, espero que sea lo que buscas.

información relacionada