Как заставить wget загрузить cgi-файл из robots.txt?

Как заставить wget загрузить cgi-файл из robots.txt?

В качестве примера -http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22.

Я нашел способ обойти ограничения robots.txt, но даже в этом случае он просто загружает двоичный файл, который невозможно прочитать ничем.

решение1

wget --user-agent=Mozilla \
  "http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22"

решение2

Изруководство wgetна gnu.org

Если вы знаете, что делаете, и действительно хотите отключить исключение роботов, установите переменную robots на 'off' в вашем .wgetrc. Вы можете добиться того же эффекта из командной строки, используя ключ -e, например 'wget -e robots=off url...'.

решение3

После нескольких попыток использования: --user-agent | robots=off без вывода и проверки шестнадцатеричного дампа вывода.

Мне это удалось - я отправил выходной файл в формате HTML, используя пример ниже

Попробуй это:

wget --user-agent=Mozilla \ -e robots=off "http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22" -O -O cgi-converted-to-htmlfile.html

К вашему сведению the --user-agent=Mozilla \ -e robots=off все на одной линии

вариант-e роботы=выкл отключит поддержку серверов robots.txt

вариант-O cgi-конвертированный-в-htmlфайл.html выведет файл в формате html в имя_файла

cgi-конвертированный-в-htmlfile.html

Удачи, надеюсь, это то, что вы ищете.

Связанный контент