我正在嘗試轉換手冊http://101.wacom.com/UserHelp/en/TOC/CTH-490.html轉換為 PDF。
在 Arch Linux 中我嘗試過:
wget --recursive --page-requisites --domains wacom.com http://101.wacom.com/UserHelp/en/TOC/CTH-490.html
wkhtmltopdf 101.wacom.com/UserHelp/en/TOC/CTH-490.html foo.pdf
並且也替換wkhtmltopdf
為:
htmldoc --webpage -f foo.pdf 101.wacom.com/UserHelp/en/TOC/CTH-490.html
我只得到第一頁(幾乎是空白的htmldoc
)。
wkhtmltopdf 是社區儲存庫中的版本 0.12.5。
HTMLDOC 版本為 1.9.8。
答案1
這是一個動態頁面,一個由 HTML 創建的空殼,透過腳本載入其內容。如果您查看 HTML 原始程式碼並了解其工作原理,您也許能夠按計劃分塊下載訊息,但您必須將它們拼湊在一起。
您正在嘗試抓取一個動態站點,Python 和一些其他程式庫是一個很好的候選工具。
這回答可能有幫助。