Ich versuche das Handbuch zu konvertierenhttp://101.wacom.com/UserHelp/en/TOC/CTH-490.htmlin ein PDF.
Unter Arch Linux habe ich Folgendes versucht:
wget --recursive --page-requisites --domains wacom.com http://101.wacom.com/UserHelp/en/TOC/CTH-490.html
wkhtmltopdf 101.wacom.com/UserHelp/en/TOC/CTH-490.html foo.pdf
und auch ersetzen wkhtmltopdf
durch:
htmldoc --webpage -f foo.pdf 101.wacom.com/UserHelp/en/TOC/CTH-490.html
Ich bekomme nur die erste Seite (fast leer mit htmldoc
).
wkhtmltopdf ist Version 0.12.5 aus dem Community-Repository.
HTMLDOC ist Version 1.9.8.
Antwort1
Das ist eine dynamische Seite, eine leere Hülle, die von HTML erstellt wird und deren Inhalt über Skripte geladen wird. Wenn Sie sich den HTML-Quellcode ansehen und verstehen, wie er funktioniert, können Sie die Informationen möglicherweise wie geplant in Blöcken herunterladen, aber Sie müssen sie zusammensetzen.
Sie versuchen, eine dynamische Site zu scrapen. Ein gutes Tool dafür sind Python und einige zusätzliche Bibliotheken.
DasAntwortkönnte helfen.