wget не работает в рекурсивном режиме

Question 1

Ваша проблема возникает из-за того, что все ссылки aol.com/index.htmlуказывают на разные хосты. Для рекурсивной загрузки со всех хостов вы можете добавить опцию --span-hosts. Чтобы разрешить все хосты aol, мне показалось, что сработало добавление опции --span-hosts '*.aol.com'.

wget --span-hosts '*.aol.com' -r http://www.aol.com

Вы можете перечислить ссылки с помощью

grep -Po '(?<=href=")[^"]*' aol.com/index.html

Вы увидите, что большинство из них ведут на www.aol.com, поэтому вы также можете позвонить

wget -r http://www.aol.com

Answer

Ваша проблема возникает из-за того, что все ссылки aol.com/index.htmlуказывают на разные хосты. Для рекурсивной загрузки со всех хостов вы можете добавить опцию --span-hosts. Чтобы разрешить все хосты aol, мне показалось, что сработало добавление опции --span-hosts '*.aol.com'.

wget --span-hosts '*.aol.com' -r http://www.aol.com

Вы можете перечислить ссылки с помощью

grep -Po '(?<=href=")[^"]*' aol.com/index.html

Вы увидите, что большинство из них ведут на www.aol.com, поэтому вы также можете позвонить

wget -r http://www.aol.com

Question 2

Использование следующего кода позволит wgetрекурсивно загрузить все страницы, связанные с веб-сайтом.

wget -r $(curl http://aol.com | grep -Po '(?<=href=")[^"]*')

Замените пример веб-сайта на тот, который вам нужен. Это будет извлекать какDeapth for search in a graph

Метод работы curlбудет извлекать index.html. Он будет передан в grepдля поиска всех ссылок путем сопоставления href. Результат ввода будет передан wgetв качестве переменной. wgetизвлекать ссылки одну за другой из переменной.

Answer

Использование следующего кода позволит wgetрекурсивно загрузить все страницы, связанные с веб-сайтом.

wget -r $(curl http://aol.com | grep -Po '(?<=href=")[^"]*')

Замените пример веб-сайта на тот, который вам нужен. Это будет извлекать какDeapth for search in a graph

Метод работы curlбудет извлекать index.html. Он будет передан в grepдля поиска всех ссылок путем сопоставления href. Результат ввода будет передан wgetв качестве переменной. wgetизвлекать ссылки одну за другой из переменной.

wget не работает в рекурсивном режиме

решение1

решение2

Связанный контент