Wget - Загрузить все изображения с веб-сервера

Wget - Загрузить все изображения с веб-сервера

Итак, я хочу загрузить все изображения с веб-сервера, особенно jpeg. Команда, которую я запускаю, выглядит легитимной, и я знаю, что на сайте есть jpeg. Например,

wget -r -ПК:/ -A.jpghttp://somesitewithjpegs.com

Я понимаю, что эта команда будет рекурсивно сканировать весь сервер, добросовестно ища только изображения jpeg, а затем загружать эти изображения на мой диск C:/. По какой-то причине это не работает.

Глядя на исходный код, я вижу, что изображения на самом деле не встроены напрямую в страницу, а размещены в другом каталоге на сервере. Это ли причина, по которой wget не может загрузить эти изображения?

решение1

Отвечая на мой собственный вопрос, wget действительно может только следовать ссылкам и загружать файлы напрямую. Поскольку большинство изображений связаны с каталогом, который не поддерживает списки каталогов или имеет ограничения, wget не может проанализировать содержимое указанного каталога.

Хорошим примером этого является сайт wordpress, который хранит изображения в папке wp-content. Попытка обойти эту папку приводит к ошибке 403 denied. Несмотря на то, что мы видим это изображение в нашем браузере как связанную картинку, wget не имеет к нему доступа, поскольку изображение хранится в каталоге без прямого доступа.

Кто-нибудь может дополнить этот ответ, если я упускаю детали или неправильно объясняю процесс.

решение2

Вот почему wget не может загрузить эти изображения?

Ответ:Может быть / Скорее всего.

Попробуйте добавить эти параметры:

-l1 -H

The-ЧАСсообщает приложению, что оно должно охватывать домены, то есть переходить по ссылкам, которые ведут за пределы сайта(Возможно, изображения хранятся на другом сервере). И-л1 означает перейти только на один уровень вглубь: то есть не переходить по ссылкам на связанном сайте. Таким образом, вы сможете загрузить содержимое с другого сервера, на котором размещены файлы изображений.

iirc, при зеркалировании всего сайта WordPress вы можете получить доступ к изображениям из папки wp-content.

Связанный контент