Estoy intentando descargar un sitio web para poder navegarlo sin conexión, así que quiero el html, imágenes, css, javascript, etc.
El problema es que no todas las imágenes están alojadas en el mismo dominio que el sitio web, al igual que CSS y JavaScript. Algunas de las imágenes provienen de imgur, otras de otros sitios para compartir archivos. En resumen, hay muchos dominios que tienen recursos que utiliza este sitio.
¿Cómo puedo descargar el html de un único dominio, pero obtener los recursos utilizados por ese html de cualquier dominio?
Respuesta1
Debes utilizar un conjunto de argumentos parahost que abarca:
Principalmente:
-H
para atravesar otros hosts distintos a los especificados-D
para especificar los dominios que se incluirán--exclude-domains
para especificar los dominios que se excluirán
Por ejemplo:
wget -rH --exclude-domains flickr.com myownsite.com