
Como ejemplo -http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22.
Encontré una manera de superar las restricciones de robots.txt, pero aun así, simplemente descarga un archivo binario que nada puede leer.
Respuesta1
wget --user-agent=Mozilla \
"http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22"
Respuesta2
Desde elmanual de wgeten gnu.org
Si sabe lo que está haciendo y realmente desea desactivar la exclusión de robots, configure la variable robots en "desactivado" en su .wgetrc. Puede lograr el mismo efecto desde la línea de comando usando el modificador -e, por ejemplo, 'wget -e robots=off url...'.
Respuesta3
Después de varios intentos usando: --user-agent | robots=off sin salida y comprobando un volcado hexadecimal de la salida.
Tuve éxito: al enviar el archivo de salida al formato HTML usando el siguiente ejemplo
Prueba esto:
wget --user-agent=Mozilla \ -e robots=off "http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22" -O -O cgi-converted-to-htmlfile.html
Para su informaciónel--user-agent=Mozilla \ -e robots=apagado está todo en la misma línea
opción-e robots=apagado desactivará el respeto a los servidores robots.txt
opción-O cgi-convertido-a-htmlfile.html generará el archivo como formato de archivo html al nombre de archivo
cgi-convertido-a-htmlfile.html
Buena suerte, espero que sea lo que buscas.