
Estou usando o seguinte comando para espelhar um site:
wget -r -p -E -N -l 10 -k -nH -H -Dfoo.com,www.foo.com foo.com
O problema que estou tendo é que em algum lugar do foo.com existem links para domínios que terminam em foo.com (newfoo.com, por exemplo) e o wget também está espelhando esse site. É possível limitar os domínios a uma correspondência exata? Não quero rastrear nenhum subdomínio além de www.
Responder1
Infelizmente, o wget faz uma correspondência suave em domínios aceitos ao rastrear um site. Por exemplo, todos os domínios a seguir seriam correspondentes para foo.com:
- barfoo. com
- bar.foo.com
- qualquer coisa.pode.gohere.foo.com
Na verdade, eu criei umcorreçãopara o wget 1.15 adicionar uma opção para ativar esse comportamento de correspondência estrita. Usando este patch, todo o domínio deve corresponder exatamente. Não afeta outras listas de domínios, como domínios excluídos, etc.