Como faço para que o wget corresponda exatamente aos nomes de domínio?

Como faço para que o wget corresponda exatamente aos nomes de domínio?

Estou usando o seguinte comando para espelhar um site:

wget -r -p -E -N -l 10 -k -nH -H -Dfoo.com,www.foo.com foo.com

O problema que estou tendo é que em algum lugar do foo.com existem links para domínios que terminam em foo.com (newfoo.com, por exemplo) e o wget também está espelhando esse site. É possível limitar os domínios a uma correspondência exata? Não quero rastrear nenhum subdomínio além de www.

Responder1

Infelizmente, o wget faz uma correspondência suave em domínios aceitos ao rastrear um site. Por exemplo, todos os domínios a seguir seriam correspondentes para foo.com:

  • barfoo. com
  • bar.foo.com
  • qualquer coisa.pode.gohere.foo.com

Na verdade, eu criei umcorreçãopara o wget 1.15 adicionar uma opção para ativar esse comportamento de correspondência estrita. Usando este patch, todo o domínio deve corresponder exatamente. Não afeta outras listas de domínios, como domínios excluídos, etc.

informação relacionada