Мне нужно скачать все файлы в папке домена, говорит https://example.com/folder/subfolder
. Файлы подпапки не имеют уникального приращения, то есть имена файлов представляют собой случайную строку. Я хочу скачать все файлы в подпапке с помощью wget или любым другим методом. Пожалуйста, дайте подробности.
Я попробовал ответитьздесь. Он только загружает файл index.html. Я попробовал другой вариант в этом ответе с опцией --reject, но он ничего не загружает.
решение1
Насколько мне известно, wget
работает только со ссылками, которые:
Явно иметь стандартный
href
атрибут.Присутствуют в данном HTML-документе (который генерируется сервером, поэтому каждыйтехническиДоступный файл не всегда может быть указан для
wget
загрузки).
Кроме того, вам, вероятно, следует просмотреть исходный код любой страницы (например, в вашем браузере). Если страница использует JavaScript, вам может не повезти, так как wget
JavaScript не обрабатывается.
Если ссылка указана в необработанном HTML, но без стандартного href
атрибута, вы все равно можете проанализировать страницу на наличие ссылок, просто не с помощью wget
. Вам, скорее всего, придется написать свой собственный скрипт с помощью чего-то вроде Windows PowerShell илиПитон(возможно сЗапросы) иBeautifulSoup.
Обратите внимание, что в некоторых редких случаях, если ссылки полностью генерируются с помощью JavaScript, вам может даже понадобитьсяСелендля сохранения полностью отрисованной страницы перед ее обработкой для ссылок на файлы. В Python естьМодуль селенаи лично мне повезло с отдельными сборками "Marmaduke" (zip-файлами)Незагугленный Chromium от Woolyssдля автоматизации браузера.