マニュアルを変換しようとしていますhttp://101.wacom.com/UserHelp/en/TOC/CTH-490.htmlPDF に変換します。
Arch Linuxでは次のことを試しました:
wget --recursive --page-requisites --domains wacom.com http://101.wacom.com/UserHelp/en/TOC/CTH-490.html
wkhtmltopdf 101.wacom.com/UserHelp/en/TOC/CTH-490.html foo.pdf
また、次のwkhtmltopdf
ように置き換えます:
htmldoc --webpage -f foo.pdf 101.wacom.com/UserHelp/en/TOC/CTH-490.html
最初のページだけが表示されます ( とほぼ空白htmldoc
)。
wkhtmltopdf はコミュニティ リポジトリのバージョン 0.12.5 です。HTMLDOC
はバージョン 1.9.8 です。
答え1
これは動的なページであり、HTML によって作成された空のシェルで、スクリプトによってその内容を読み込みます。HTML ソースを見てその仕組みを理解すれば、計画どおりに情報をチャンク単位でダウンロードできるかもしれませんが、それらをつなぎ合わせる必要があります。
動的なサイトをスクレイピングしようとしている場合、そのための適切な候補ツールは Python といくつかの追加ライブラリです。
これ答え役立つかもしれません。