
Necesito reflejar la siguiente URL:
https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/
Pero necesito reflejar solo los archivos de esta fecha '20100515230709'. He probado muchas wget
opciones pero también toman index.html o archivos de otras fechas.
¿Cómo puedo lograrlo?
Respuesta1
Del manual de wget (1.15):
En realidad, para descargar una sola página y todos sus requisitos (incluso si existen en sitios web separados) y asegurarse de que el lote se muestre correctamente localmente, a este autor le gusta usar algunas opciones además de '-p':
wget -E -H -k -K -p URL
Además, es posible que robots.txt esté bloqueando algún contenido, así que agregue -e robots=off
Entonces obtienes:
wget -E -H -k -K -p -e robots=off https://web.archive.org/web/20100515230709/http://markowitzbocadentist.com/
Esto me dio 38 archivos, todos necesarios para esa única página y nada más.
Si desea obtener algo más que esa página, también debe descargar (partes de) instantáneas de días anteriores. Debido a que archive.org solo recupera elcambiópáginas, unsitio completoen unfecha específicacasi siempre consta de páginas que fueron capturadas en esa fecha, pero también en fechas más antiguas. Por ejemplo, el enlace a "Trámites" se refiere a una copia realizada el 21/10/2010 a las 08:29:33, que es anterior a la fecha que usted mencionó (15/05/2010 a las 23:07:09).
Entonces, la respuesta real a tu pregunta es: no puedes reflejar unacompletoinstantánea de una fecha sin descargar al menos partes de la instantánea de otra fecha también.
Agregar -m (opción espejo) también recupera esas páginas.