
私は Web サイトをクロールしようとしており、wget で (同じドメイン内にある) すべてのリンクを再帰的にたどり、そのページの URL がパターンに一致する場合にのみページをダウンロードしたいと考えています。
私は次のようなことを試しました:
wget https://www.abc.def --no-clobber -r -e robots=off -U mozilla --domains abc.def --html-extension --accept-regex 'https://www.abc.def/g/h/.*'
確かに「https://www.abc.def/g/h/.*' パターン。ただし、他のリンクをたどることはまったくありません。
何か案が?
前もって感謝します!