Me gustaría rastrear enlaces en www.website.com/XYZ y descargar solo los enlaces que se encuentran en www.website.com/ABC.
Estoy usando el siguiente comando wget para obtener los archivos que quiero:
wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ
Esto funciona perfectamente cuando uso wget 1.13.4. Pero el problema es que tengo que usar este comando en un servidor que tiene wget 1.11 y cuando uso el mismo comando, termina descargando dominios adicionales como:
www.website.de
www.website.it
...
¿Cómo puedo evitar este problema? Intenté usar
--exclude domains=www.website.de,www.website.it
sin embargo, siguió descargando esos dominios.
También tenga en cuenta que no puedo usarlo --no-parent
porque los archivos que quiero están en el nivel superior (quiero archivos en website.com/ABC rastreando enlaces en website.com/XYZ).
¿Alguna pista?
Respuesta1
Puedes intentarlo --max-redirect 0
o usarlo --domains example.com
como opuesto a --exclude-domains example.com
.
Ver:
-D, --domains=LIST comma-separated list of accepted domains.
--exclude-domains=LIST comma-separated list of rejected domains.
--follow-tags=LIST comma-separated list of followed HTML tags.
--ignore-tags=LIST comma-separated list of ignored HTML tags.
-np, --no-parent don't ascend to the parent directory.
--max-redirect maximum redirections allowed per page.
Respuesta2
Esto está mal:
--exclude domains=www.website.de,www.website.it
La forma correcta es:
--exclude-domains www.website.de,www.website.it
Desde la página de manual de wget:
--exclude-domains domain-list Specify the domains that are not to be followed.