¿Cómo hago para que wget coincida con nombres de dominio exactos?

¿Cómo hago para que wget coincida con nombres de dominio exactos?

Estoy usando el siguiente comando para reflejar un sitio:

wget -r -p -E -N -l 10 -k -nH -H -Dfoo.com,www.foo.com foo.com

El problema que tengo es que en algún lugar de foo.com hay enlaces a dominios que terminan en foo.com (newfoo.com, por ejemplo) y wget también está reflejando ese sitio. ¿Es posible limitar los dominios a una coincidencia exacta? No quiero rastrear ningún subdominio que no sea www.

Respuesta1

Desafortunadamente, wget realiza una coincidencia suave en los dominios aceptados cuando rastrea un sitio. Por ejemplo, todos los siguientes dominios coincidirían con foo.com:

  • barfoo.com
  • bar.foo.com
  • cualquier cosa.puede ir aquí.foo.com

De hecho creé unparchepara wget 1.15 agregar una opción para habilitar este comportamiento de coincidencia estricta. Al utilizar este parche, todo el dominio debe coincidir exactamente. No afecta a otras listas de dominios como dominios excluidos, etc.

información relacionada