sitio espejo wget + recursos de otro dominio

sitio espejo wget + recursos de otro dominio

Estoy intentando descargar un sitio web para poder navegarlo sin conexión, así que quiero el html, imágenes, css, javascript, etc.

El problema es que no todas las imágenes están alojadas en el mismo dominio que el sitio web, al igual que CSS y JavaScript. Algunas de las imágenes provienen de imgur, otras de otros sitios para compartir archivos. En resumen, hay muchos dominios que tienen recursos que utiliza este sitio.

¿Cómo puedo descargar el html de un único dominio, pero obtener los recursos utilizados por ese html de cualquier dominio?

Respuesta1

Debes utilizar un conjunto de argumentos parahost que abarca:

Principalmente:

  • -Hpara atravesar otros hosts distintos a los especificados
  • -Dpara especificar los dominios que se incluirán
  • --exclude-domainspara especificar los dominios que se excluirán

Por ejemplo:

wget -rH --exclude-domains flickr.com myownsite.com

información relacionada