Я хотел бы сканировать ссылки с www.website.com/XYZ и загружать только те ссылки, которые находятся с www.website.com/ABC.
Я использую следующую команду wget для получения нужных мне файлов:
wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ
Это работает отлично, когда я использую wget 1.13.4. Но проблема в том, что мне приходится использовать эту команду на сервере, на котором установлен wget 1.11, и когда я использую ту же команду, она в итоге загружает дополнительные домены, такие как:
www.website.de
www.website.it
...
Как мне избежать этой проблемы? Я пробовал использовать
--exclude domains=www.website.de,www.website.it
Однако он продолжал загружать эти домены.
Также обратите внимание, что я не могу использовать --no-parent
файлы, так как они находятся на верхнем уровне (мне нужны файлы на website.com/ABC, просматривая ссылки на website.com/XYZ).
Есть какие-нибудь подсказки?
решение1
Вы можете попробовать --max-redirect 0
или использовать --domains example.com
как противоположность --exclude-domains example.com
.
Видеть:
-D, --domains=LIST comma-separated list of accepted domains.
--exclude-domains=LIST comma-separated list of rejected domains.
--follow-tags=LIST comma-separated list of followed HTML tags.
--ignore-tags=LIST comma-separated list of ignored HTML tags.
-np, --no-parent don't ascend to the parent directory.
--max-redirect maximum redirections allowed per page.
решение2
Это не верно:
--exclude domains=www.website.de,www.website.it
Правильный путь:
--exclude-domains www.website.de,www.website.it
Из страницы руководства wget:
--exclude-domains domain-list Specify the domains that are not to be followed.