Как скачать все файлы в папке с помощью wget

Question

Насколько мне известно, wgetработает только со ссылками, которые:

Явно иметь стандартный hrefатрибут.
Присутствуют в данном HTML-документе (который генерируется сервером, поэтому каждыйтехническиДоступный файл не всегда может быть указан для wgetзагрузки).

Кроме того, вам, вероятно, следует просмотреть исходный код любой страницы (например, в вашем браузере). Если страница использует JavaScript, вам может не повезти, так как wgetJavaScript не обрабатывается.

Если ссылка указана в необработанном HTML, но без стандартного hrefатрибута, вы все равно можете проанализировать страницу на наличие ссылок, просто не с помощью wget. Вам, скорее всего, придется написать свой собственный скрипт с помощью чего-то вроде Windows PowerShell илиПитон(возможно сЗапросы) иBeautifulSoup.

Обратите внимание, что в некоторых редких случаях, если ссылки полностью генерируются с помощью JavaScript, вам может даже понадобитьсяСелендля сохранения полностью отрисованной страницы перед ее обработкой для ссылок на файлы. В Python естьМодуль селенаи лично мне повезло с отдельными сборками "Marmaduke" (zip-файлами)Незагугленный Chromium от Woolyssдля автоматизации браузера.

Answer 1

Насколько мне известно, wgetработает только со ссылками, которые:

Явно иметь стандартный hrefатрибут.
Присутствуют в данном HTML-документе (который генерируется сервером, поэтому каждыйтехническиДоступный файл не всегда может быть указан для wgetзагрузки).

Кроме того, вам, вероятно, следует просмотреть исходный код любой страницы (например, в вашем браузере). Если страница использует JavaScript, вам может не повезти, так как wgetJavaScript не обрабатывается.

Если ссылка указана в необработанном HTML, но без стандартного hrefатрибута, вы все равно можете проанализировать страницу на наличие ссылок, просто не с помощью wget. Вам, скорее всего, придется написать свой собственный скрипт с помощью чего-то вроде Windows PowerShell илиПитон(возможно сЗапросы) иBeautifulSoup.

Обратите внимание, что в некоторых редких случаях, если ссылки полностью генерируются с помощью JavaScript, вам может даже понадобитьсяСелендля сохранения полностью отрисованной страницы перед ее обработкой для ссылок на файлы. В Python естьМодуль селенаи лично мне повезло с отдельными сборками "Marmaduke" (zip-файлами)Незагугленный Chromium от Woolyssдля автоматизации браузера.

Как скачать все файлы в папке с помощью wget

решение1

Связанный контент