¿Cómo puedo reflejar el subdirectorio de un sitio web con wget?

¿Cómo puedo reflejar el subdirectorio de un sitio web con wget?

Necesito reflejar la siguiente URL:

https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/

Pero necesito reflejar solo los archivos de esta fecha '20100515230709'. He probado muchas wgetopciones pero también toman index.html o archivos de otras fechas.

¿Cómo puedo lograrlo?

Respuesta1

Del manual de wget (1.15):

En realidad, para descargar una sola página y todos sus requisitos (incluso si existen en sitios web separados) y asegurarse de que el lote se muestre correctamente localmente, a este autor le gusta usar algunas opciones además de '-p':

wget -E -H -k -K -p URL

Además, es posible que robots.txt esté bloqueando algún contenido, así que agregue -e robots=off

Entonces obtienes:

wget -E -H -k -K -p -e robots=off https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/

Esto me dio 38 archivos, todos necesarios para esa única página y nada más.

Si desea obtener algo más que esa página, también debe descargar (partes de) instantáneas de días anteriores. Debido a que archive.org solo recupera elcambiópáginas, unsitio completoen unfecha específicacasi siempre consta de páginas que fueron capturadas en esa fecha, pero también en fechas más antiguas. Por ejemplo, el enlace a "Trámites" se refiere a una copia realizada el 21/10/2010 a las 08:29:33, que es anterior a la fecha que usted mencionó (15/05/2010 a las 23:07:09).

Entonces, la respuesta real a tu pregunta es: no puedes reflejar unacompletoinstantánea de una fecha sin descargar al menos partes de la instantánea de otra fecha también.

Agregar -m (opción espejo) también recupera esas páginas.

información relacionada