wkhtmltopdf でウェブサイトを PDF に変換

wkhtmltopdf でウェブサイトを PDF に変換

マニュアルを変換しようとしていますhttp://101.wacom.com/UserHelp/en/TOC/CTH-490.htmlPDF に変換します。

Arch Linuxでは次のことを試しました:

wget --recursive --page-requisites --domains wacom.com  http://101.wacom.com/UserHelp/en/TOC/CTH-490.html
wkhtmltopdf 101.wacom.com/UserHelp/en/TOC/CTH-490.html foo.pdf

また、次のwkhtmltopdfように置き換えます:

htmldoc --webpage -f foo.pdf  101.wacom.com/UserHelp/en/TOC/CTH-490.html                               

最初のページだけが表示されます ( とほぼ空白htmldoc)。

wkhtmltopdf はコミュニティ リポジトリのバージョン 0.12.5 です。HTMLDOC
はバージョン 1.9.8 です。

答え1

これは動的なページであり、HTML によって作成された空のシェルで、スクリプトによってその内容を読み込みます。HTML ソースを見てその仕組みを理解すれば、計画どおりに情報をチャンク単位でダウンロードできるかもしれませんが、それらをつなぎ合わせる必要があります。

動的なサイトをスクレイピングしようとしている場合、そのための適切な候補ツールは Python といくつかの追加ライブラリです。

これ答え役立つかもしれません。

関連情報