wget funktioniert nicht im rekursiven Modus

Question 1

Ihr Problem entsteht, weil alle Links aol.com/index.htmlauf unterschiedliche Hosts verweisen. Um rekursiv von allen Hosts herunterzuladen, können Sie die Option hinzufügen --span-hosts. Um alle AOL-Hosts zuzulassen, schien es bei mir zu funktionieren, die --span-hosts '*.aol.com'Option hinzuzufügen.

wget --span-hosts '*.aol.com' -r http://www.aol.com

Sie können die Links auflisten mit

grep -Po '(?<=href=")[^"]*' aol.com/index.html

Sie werden sehen, dass die meisten davon auf www.aol.com verweisen. Sie können also auch

wget -r http://www.aol.com

Answer

Ihr Problem entsteht, weil alle Links aol.com/index.htmlauf unterschiedliche Hosts verweisen. Um rekursiv von allen Hosts herunterzuladen, können Sie die Option hinzufügen --span-hosts. Um alle AOL-Hosts zuzulassen, schien es bei mir zu funktionieren, die --span-hosts '*.aol.com'Option hinzuzufügen.

wget --span-hosts '*.aol.com' -r http://www.aol.com

Sie können die Links auflisten mit

grep -Po '(?<=href=")[^"]*' aol.com/index.html

Sie werden sehen, dass die meisten davon auf www.aol.com verweisen. Sie können also auch

wget -r http://www.aol.com

Question 2

Mit dem Folgenden können Sie wgetalle mit einer Website verknüpften Seiten rekursiv herunterladen.

wget -r $(curl http://aol.com | grep -Po '(?<=href=")[^"]*')

Ersetzen Sie die Beispiel-Website durch die gewünschte. Dies wird wie folgt abgerufen:Deapth for search in a graph

Arbeitsweise curlwird holen index.html. Es wird weitergeleitet, grepum alle Links durch Übereinstimmung zu finden . Das Ergebnis wird als Variable hrefübergeben . Holen Sie die Links nacheinander aus der Variable.wgetwget

Answer

Mit dem Folgenden können Sie wgetalle mit einer Website verknüpften Seiten rekursiv herunterladen.

wget -r $(curl http://aol.com | grep -Po '(?<=href=")[^"]*')

Ersetzen Sie die Beispiel-Website durch die gewünschte. Dies wird wie folgt abgerufen:Deapth for search in a graph

Arbeitsweise curlwird holen index.html. Es wird weitergeleitet, grepum alle Links durch Übereinstimmung zu finden . Das Ergebnis wird als Variable hrefübergeben . Holen Sie die Links nacheinander aus der Variable.wgetwget

wget funktioniert nicht im rekursiven Modus

Antwort1

Antwort2

verwandte Informationen