Rastrear site com Wget com filtro por padrões de URL

2024-6-10 • tag-icon

Rastrear site com Wget com filtro por padrões de URL

Estou tentando rastrear um site e quero que o wget siga recursivamente todos os links (que estão dentro do mesmo domínio), mas só baixe a página se o URL dessa página corresponder a um padrão.

Eu tentei algo assim:

wget https://www.abc.def --no-clobber -r -e robots=off -U mozilla --domains abc.def --html-extension --accept-regex 'https://www.abc.def/g/h/.*'

Na verdade, ele apenas baixa páginas com 'https://www.abc.def/g/h/.*' padrão. No entanto, ele não tenta seguir outros links.

Qualquer ideia?

Desde já, obrigado!

informação relacionada