Веб-сайт в PDF с помощью wkhtmltopdf

Веб-сайт в PDF с помощью wkhtmltopdf

Я пытаюсь преобразовать руководствоhttp://101.wacom.com/UserHelp/en/TOC/CTH-490.htmlв PDF-файл.

В Arch Linux я попробовал:

wget --recursive --page-requisites --domains wacom.com  http://101.wacom.com/UserHelp/en/TOC/CTH-490.html
wkhtmltopdf 101.wacom.com/UserHelp/en/TOC/CTH-490.html foo.pdf

а также заменить wkhtmltopdfна:

htmldoc --webpage -f foo.pdf  101.wacom.com/UserHelp/en/TOC/CTH-490.html                               

Я получаю только первую страницу (почти пустую с htmldoc).

wkhtmltopdf — версия 0.12.5 из репозитория сообщества.
HTMLDOC — версия 1.9.8.

решение1

Это динамическая страница, пустая оболочка, созданная HTML, которая загружает свое содержимое через скрипты. Если вы посмотрите на исходный код HTML и поймете, как он работает, вы сможете загрузить информацию, как и планировали, по частям, но вам придется собирать их вместе.

Вы пытаетесь выполнить парсинг динамического сайта, и хорошим инструментом для этого является Python и некоторые дополнительные библиотеки.

Этототвечатьможет помочь.

Связанный контент