如何讓 wget 下載 robots.txt 後面的 cgi 檔案?

如何讓 wget 下載 robots.txt 後面的 cgi 檔案?

舉個例子 -http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22

我找到了一種方法來克服 robots.txt 的限制,但即便如此,它也只是下載了一個任何東西都無法讀取的二進位檔案。

答案1

wget --user-agent=Mozilla \
  "http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22"

答案2

來自wget手冊在 gnu.org 上

如果您知道自己在做什麼並且確實希望關閉機器人排除,請在 .wgetrc 中將 robots 變數設為「off」。您可以使用 -e 開關從命令列實現相同的效果,例如“wget -e robots=off url...”。

答案3

經過多次嘗試使用: --user-agent | robots=off 沒有輸出並通過檢查輸出的十六進位轉儲。

我成功了 - 透過使用下面的範例將文件輸出傳送為 HTML 格式

嘗試這個:

wget --user-agent=Mozilla \ -e robots=off "http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22" -O -O cgi-converted-to-htmlfile.html

供參考--user-agent=Mozilla \ -e robots=關閉 都在同一條線上

選項-e 機器人=關閉 將禁用尊重伺服器 robots.txt

選項-O cgi-converted-to-htmlfile.html 將檔案以 html 檔案格式輸出到 filename

cgi-converted-to-htmlfile.html

祝你好運,我希望這就是你想要的。

相關內容