
Estou tentando rastrear um site e quero que o wget siga recursivamente todos os links (que estão dentro do mesmo domínio), mas só baixe a página se o URL dessa página corresponder a um padrão.
Eu tentei algo assim:
wget https://www.abc.def --no-clobber -r -e robots=off -U mozilla --domains abc.def --html-extension --accept-regex 'https://www.abc.def/g/h/.*'
Na verdade, ele apenas baixa páginas com 'https://www.abc.def/g/h/.*' padrão. No entanto, ele não tenta seguir outros links.
Qualquer ideia?
Desde já, obrigado!