Ignorar “outros” domínios ao baixar com wget?

Ignorar “outros” domínios ao baixar com wget?

Gostaria de rastrear links em www.website.com/XYZ e baixar apenas os links que estão em www.website.com/ABC.

Estou usando o seguinte comando wget para obter os arquivos que desejo:

wget  -I ABC -r -e robots=off --wait 0.25  http://www.website.com/XYZ

Isso funciona perfeitamente quando uso o wget 1.13.4. Mas o problema é que tenho que usar este comando em um servidor que possui o wget 1.11 e quando uso o mesmo comando, ele acaba baixando domínios adicionais como:

www.website.de 
www.website.it 
...

Como posso evitar esse problema? Eu tentei usar

--exclude domains=www.website.de,www.website.it

no entanto, continuou baixando esses domínios.

Observe também que não posso usar, --no-parentpois os arquivos que desejo estão no nível superior (quero arquivos em website.com/ABC rastreando links em website.com/XYZ).

Alguma dica?

Responder1

Você pode tentar --max-redirect 0ou usar --domains example.com como oposto de --exclude-domains example.com.

Ver:

  -D,  --domains=LIST              comma-separated list of accepted domains.
       --exclude-domains=LIST      comma-separated list of rejected domains.
       --follow-tags=LIST          comma-separated list of followed HTML tags.
       --ignore-tags=LIST          comma-separated list of ignored HTML tags.
  -np, --no-parent                 don't ascend to the parent directory.
  --max-redirect                   maximum redirections allowed per page.

Responder2

Isto está errado:

--exclude domains=www.website.de,www.website.it

O caminho certo é:

--exclude-domains www.website.de,www.website.it

Na página de manual do wget:

--exclude-domains domain-list
      Specify the domains that are not to be followed.

informação relacionada