
我需要建議。
我有一個網頁伺服器虛擬機器(LAN,不在網路上),它有 2 個 wiki:
我只想取得作業 wiki 頁面,而不爬入 GameWiki?
我的目標是使用 wget 獲取 .htmls(忽略所有其他文件圖像等)。 (我不想匯出 mysqldump 或 mediawiki,而是為我的(非 IT)老闆做 wget,他只想雙擊 html)。
如何運行 wget 來僅抓取該 VM 上的 HomeWorkWiki,而不抓取 GameWiki。
謝謝
答案1
解決方案是要么使用 httrack,並仔細定制嚮導,要么使用 wget 這個出色的襯墊:
echo "robots = off" > ~/robots.txt ; wget --mirror --convert-links --html-extension --no-parent --wait=0 "http://10.168.0.4/GameWiki」