
舉個例子 -http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22。
我找到了一種方法來克服 robots.txt 的限制,但即便如此,它也只是下載了一個任何東西都無法讀取的二進位檔案。
答案1
wget --user-agent=Mozilla \
"http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22"
答案2
來自wget手冊在 gnu.org 上
如果您知道自己在做什麼並且確實希望關閉機器人排除,請在 .wgetrc 中將 robots 變數設為「off」。您可以使用 -e 開關從命令列實現相同的效果,例如“wget -e robots=off url...”。
答案3
經過多次嘗試使用: --user-agent | robots=off 沒有輸出並通過檢查輸出的十六進位轉儲。
我成功了 - 透過使用下面的範例將文件輸出傳送為 HTML 格式
嘗試這個:
wget --user-agent=Mozilla \ -e robots=off "http://aok.heavengames.com/cgi-bin/aokcgi/display.cgi?action=t&fn=22" -O -O cgi-converted-to-htmlfile.html
供參考這--user-agent=Mozilla \ -e robots=關閉 都在同一條線上
選項-e 機器人=關閉 將禁用尊重伺服器 robots.txt
選項-O cgi-converted-to-htmlfile.html 將檔案以 html 檔案格式輸出到 filename
cgi-converted-to-htmlfile.html
祝你好運,我希望這就是你想要的。