Warum erhält wget beim Spiegeln dieser Site nicht alle Seiten?

Question 1

Javascript wird vom Browser gerendert. wgettut genau das, was es tun soll, nämlich den Inhalt abrufen. Browser machen zunächst dasselbe. Sie erhalten den Inhalt genau so, wie Sie oben geschrieben haben. Aber dann rendert es den JavascriptTeil und erstellt die Links. wgetDas geht nicht. Also, nein, Sie können keine dynamisch generierten Links abrufen, indem Sie nur wget verwenden. Sie können etwas wie Folgendes versuchen:PhantomJSobwohl.

Answer

Javascript wird vom Browser gerendert. wgettut genau das, was es tun soll, nämlich den Inhalt abrufen. Browser machen zunächst dasselbe. Sie erhalten den Inhalt genau so, wie Sie oben geschrieben haben. Aber dann rendert es den JavascriptTeil und erstellt die Links. wgetDas geht nicht. Also, nein, Sie können keine dynamisch generierten Links abrufen, indem Sie nur wget verwenden. Sie können etwas wie Folgendes versuchen:PhantomJSobwohl.

Question 2

Wie bereits erwähnt, kann wget keine Seiten generieren, die clientseitigen JavaScript-Code verwenden. Wenn Sie die Grundlagen der Python-Programmierung kennen, empfehle ich die Verwendung der Python-BibliothekSchabrackezum Crawlen der Website, zusammen mitSelen, das einen externen Browser verwenden kann, um dynamische Seiten zu generieren. All dies können Sie mit einer winzigen Menge Python-Code tun. Siehe zum Beispiel Code Snippets Sammlung.

Answer

Wie bereits erwähnt, kann wget keine Seiten generieren, die clientseitigen JavaScript-Code verwenden. Wenn Sie die Grundlagen der Python-Programmierung kennen, empfehle ich die Verwendung der Python-BibliothekSchabrackezum Crawlen der Website, zusammen mitSelen, das einen externen Browser verwenden kann, um dynamische Seiten zu generieren. All dies können Sie mit einer winzigen Menge Python-Code tun. Siehe zum Beispiel Code Snippets Sammlung.

Warum erhält wget beim Spiegeln dieser Site nicht alle Seiten?

Antwort1

Antwort2

verwandte Informationen