site espelho wget + recursos de outro domínio

site espelho wget + recursos de outro domínio

Estou tentando baixar um site para que possa ser navegado offline, então quero o html, imagens, css, javascript, etc.

O problema é que as imagens não ficam todas hospedadas no mesmo domínio do site, assim como acontece com o css e o javascript. Algumas das imagens vêm do imgur, outras de outros sites de compartilhamento de arquivos. Resumindo, existem muitos domínios que possuem recursos que são usados ​​por este site.

Como posso baixar o html do domínio único, mas obter os recursos usados ​​por esse html de qualquer domínio?

Responder1

Você deve usar um conjunto de argumentos paraabrangência do host:

Principalmente:

  • -Hpara atravessar para outros hosts além do especificado
  • -Dpara especificar domínios a serem incluídos
  • --exclude-domainspara especificar domínios a serem excluídos

Por exemplo:

wget -rH --exclude-domains flickr.com myownsite.com

informação relacionada