使用 wkhtmltopdf 將網站轉換為 PDF

使用 wkhtmltopdf 將網站轉換為 PDF

我正在嘗試轉換手冊http://101.wacom.com/UserHelp/en/TOC/CTH-490.html轉換為 PDF。

在 Arch Linux 中我嘗試過:

wget --recursive --page-requisites --domains wacom.com  http://101.wacom.com/UserHelp/en/TOC/CTH-490.html
wkhtmltopdf 101.wacom.com/UserHelp/en/TOC/CTH-490.html foo.pdf

並且也替換wkhtmltopdf為:

htmldoc --webpage -f foo.pdf  101.wacom.com/UserHelp/en/TOC/CTH-490.html                               

我只得到第一頁(幾乎是空白的htmldoc)。

wkhtmltopdf 是社區儲存庫中的版本 0.12.5。
HTMLDOC 版本為 1.9.8。

答案1

這是一個動態頁面,一個由 HTML 創建的空殼,透過腳本載入其內容。如果您查看 HTML 原始程式碼並了解其工作原理,您也許能夠按計劃分塊下載訊息,但您必須將它們拼湊在一起。

您正在嘗試抓取一個動態站點,Python 和一些其他程式庫是一個很好的候選工具。

回答可能有幫助。

相關內容