URL パターンによるフィルターを使用して Wget で Web サイトをクロールする

2024-6-10 • tag-icon

私は Web サイトをクロールしようとしており、wget で (同じドメイン内にある) すべてのリンクを再帰的にたどり、そのページの URL がパターンに一致する場合にのみページをダウンロードしたいと考えています。

私は次のようなことを試しました:

wget https://www.abc.def --no-clobber -r -e robots=off -U mozilla --domains abc.def --html-extension --accept-regex 'https://www.abc.def/g/h/.*'

確かに「https://www.abc.def/g/h/.*' パターン。ただし、他のリンクをたどることはまったくありません。

何か案が？

前もって感謝します！

関連情報