Estoy usando el siguiente comando para reflejar un sitio:
wget -r -p -E -N -l 10 -k -nH -H -Dfoo.com,www.foo.com foo.com
El problema que tengo es que en algún lugar de foo.com hay enlaces a dominios que terminan en foo.com (newfoo.com, por ejemplo) y wget también está reflejando ese sitio. ¿Es posible limitar los dominios a una coincidencia exacta? No quiero rastrear ningún subdominio que no sea www.
Respuesta1
Desafortunadamente, wget realiza una coincidencia suave en los dominios aceptados cuando rastrea un sitio. Por ejemplo, todos los siguientes dominios coincidirían con foo.com:
- barfoo.com
- bar.foo.com
- cualquier cosa.puede ir aquí.foo.com
De hecho creé unparchepara wget 1.15 agregar una opción para habilitar este comportamiento de coincidencia estricta. Al utilizar este parche, todo el dominio debe coincidir exactamente. No afecta a otras listas de dominios como dominios excluidos, etc.