Сканирование веб-сайта с помощью Wget с фильтрацией по шаблонам URL

2024-6-10 • tag-icon

Сканирование веб-сайта с помощью Wget с фильтрацией по шаблонам URL

Я пытаюсь просканировать веб-сайт и хочу, чтобы wget рекурсивно переходил по всем ссылкам (находящимся в одном домене), но загружал страницу только в том случае, если URL-адрес этой страницы соответствует шаблону.

Я попробовал что-то вроде этого:

wget https://www.abc.def --no-clobber -r -e robots=off -U mozilla --domains abc.def --html-extension --accept-regex 'https://www.abc.def/g/h/.*'

Он действительно загружает только страницы с 'https://www.abc.def/g/h/.*' шаблон. Однако он вообще не пытается следовать по другим ссылкам.

Есть идеи?

Заранее спасибо!

Связанный контент