
В качестве примера -http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22.
Я нашел способ обойти ограничения robots.txt, но даже в этом случае он просто загружает двоичный файл, который невозможно прочитать ничем.
решение1
wget --user-agent=Mozilla \
"http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22"
решение2
Изруководство wgetна gnu.org
Если вы знаете, что делаете, и действительно хотите отключить исключение роботов, установите переменную robots на 'off' в вашем .wgetrc. Вы можете добиться того же эффекта из командной строки, используя ключ -e, например 'wget -e robots=off url...'.
решение3
После нескольких попыток использования: --user-agent | robots=off без вывода и проверки шестнадцатеричного дампа вывода.
Мне это удалось - я отправил выходной файл в формате HTML, используя пример ниже
Попробуй это:
wget --user-agent=Mozilla \ -e robots=off "http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22" -O -O cgi-converted-to-htmlfile.html
К вашему сведению the --user-agent=Mozilla \ -e robots=off все на одной линии
вариант-e роботы=выкл отключит поддержку серверов robots.txt
вариант-O cgi-конвертированный-в-htmlфайл.html выведет файл в формате html в имя_файла
cgi-конвертированный-в-htmlfile.html
Удачи, надеюсь, это то, что вы ищете.