Я пытаюсь преобразовать руководствоhttp://101.wacom.com/UserHelp/en/TOC/CTH-490.htmlв PDF-файл.
В Arch Linux я попробовал:
wget --recursive --page-requisites --domains wacom.com http://101.wacom.com/UserHelp/en/TOC/CTH-490.html
wkhtmltopdf 101.wacom.com/UserHelp/en/TOC/CTH-490.html foo.pdf
а также заменить wkhtmltopdf
на:
htmldoc --webpage -f foo.pdf 101.wacom.com/UserHelp/en/TOC/CTH-490.html
Я получаю только первую страницу (почти пустую с htmldoc
).
wkhtmltopdf — версия 0.12.5 из репозитория сообщества.
HTMLDOC — версия 1.9.8.
решение1
Это динамическая страница, пустая оболочка, созданная HTML, которая загружает свое содержимое через скрипты. Если вы посмотрите на исходный код HTML и поймете, как он работает, вы сможете загрузить информацию, как и планировали, по частям, но вам придется собирать их вместе.
Вы пытаетесь выполнить парсинг динамического сайта, и хорошим инструментом для этого является Python и некоторые дополнительные библиотеки.
Этототвечатьможет помочь.