Как создать зеркало подкаталога веб-сайта с помощью wget

Как создать зеркало подкаталога веб-сайта с помощью wget

Мне нужно отразить следующий URL:

https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/

Но мне нужно зеркалировать только файлы с этой даты «20100515230709». Я перепробовал много wgetвариантов, но они либо захватывают index.html, либо файлы с других дат.

Как мне этого добиться?

решение1

Из руководства wget (1.15):

На самом деле, чтобы загрузить одну страницу и все ее реквизиты (даже если они существуют на разных веб-сайтах) и убедиться, что все это правильно отображается локально, этот автор любит использовать несколько опций в дополнение к '-p':

wget -E -H -k -K -p URL-адрес

Кроме того, robots.txt может блокировать часть контента, поэтому добавьте -e robots=off

Итак, вы получаете:

wget -E -H -k -K -p -e robots=off https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/

Это дало мне 38 файлов, все необходимые для этой одной страницы и не более.

Если вы хотите получить больше, чем просто эту страницу, вам нужно загрузить (части) снимков с более ранних дней. Поскольку archive.org извлекает толькоизмененныйстраницы, аполный сайтнаКонкретная датаПочти всегда состоит из страниц, которые были захвачены в эту дату, но и в более ранние даты тоже. Например, ссылка на "Процедуры" ссылается на копию, сделанную 2010-10-21 в 08:29:33, что раньше, чем дата, которую вы упомянули (2010-05-15 в 23:07:09).

Итак, фактический ответ на ваш вопрос таков: вы не можете отразитьполныйснимок одной даты без загрузки хотя бы частей из снимка другой даты.

Добавление опции -m (зеркало) также извлекает эти страницы.

Связанный контент