Игнорировать «другие» домены при загрузке с помощью wget?

Игнорировать «другие» домены при загрузке с помощью wget?

Я хотел бы сканировать ссылки с www.website.com/XYZ и загружать только те ссылки, которые находятся с www.website.com/ABC.

Я использую следующую команду wget для получения нужных мне файлов:

wget  -I ABC -r -e robots=off --wait 0.25  http://www.website.com/XYZ

Это работает отлично, когда я использую wget 1.13.4. Но проблема в том, что мне приходится использовать эту команду на сервере, на котором установлен wget 1.11, и когда я использую ту же команду, она в итоге загружает дополнительные домены, такие как:

www.website.de 
www.website.it 
...

Как мне избежать этой проблемы? Я пробовал использовать

--exclude domains=www.website.de,www.website.it

Однако он продолжал загружать эти домены.

Также обратите внимание, что я не могу использовать --no-parentфайлы, так как они находятся на верхнем уровне (мне нужны файлы на website.com/ABC, просматривая ссылки на website.com/XYZ).

Есть какие-нибудь подсказки?

решение1

Вы можете попробовать --max-redirect 0или использовать --domains example.com как противоположность --exclude-domains example.com.

Видеть:

  -D,  --domains=LIST              comma-separated list of accepted domains.
       --exclude-domains=LIST      comma-separated list of rejected domains.
       --follow-tags=LIST          comma-separated list of followed HTML tags.
       --ignore-tags=LIST          comma-separated list of ignored HTML tags.
  -np, --no-parent                 don't ascend to the parent directory.
  --max-redirect                   maximum redirections allowed per page.

решение2

Это не верно:

--exclude domains=www.website.de,www.website.it

Правильный путь:

--exclude-domains www.website.de,www.website.it

Из страницы руководства wget:

--exclude-domains domain-list
      Specify the domains that are not to be followed.

Связанный контент