
Мне нужно отразить следующий URL:
https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/
Но мне нужно зеркалировать только файлы с этой даты «20100515230709». Я перепробовал много wget
вариантов, но они либо захватывают index.html, либо файлы с других дат.
Как мне этого добиться?
решение1
Из руководства wget (1.15):
На самом деле, чтобы загрузить одну страницу и все ее реквизиты (даже если они существуют на разных веб-сайтах) и убедиться, что все это правильно отображается локально, этот автор любит использовать несколько опций в дополнение к '-p':
wget -E -H -k -K -p URL-адрес
Кроме того, robots.txt может блокировать часть контента, поэтому добавьте -e robots=off
Итак, вы получаете:
wget -E -H -k -K -p -e robots=off https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/
Это дало мне 38 файлов, все необходимые для этой одной страницы и не более.
Если вы хотите получить больше, чем просто эту страницу, вам нужно загрузить (части) снимков с более ранних дней. Поскольку archive.org извлекает толькоизмененныйстраницы, аполный сайтнаКонкретная датаПочти всегда состоит из страниц, которые были захвачены в эту дату, но и в более ранние даты тоже. Например, ссылка на "Процедуры" ссылается на копию, сделанную 2010-10-21 в 08:29:33, что раньше, чем дата, которую вы упомянули (2010-05-15 в 23:07:09).
Итак, фактический ответ на ваш вопрос таков: вы не можете отразитьполныйснимок одной даты без загрузки хотя бы частей из снимка другой даты.
Добавление опции -m (зеркало) также извлекает эти страницы.