Crawlen Sie die Website mit Wget und filtern Sie nach URL-Mustern

2024-6-10 • tag-icon

Crawlen Sie die Website mit Wget und filtern Sie nach URL-Mustern

Ich versuche, eine Website zu crawlen, und möchte, dass wget allen Links (die sich innerhalb derselben Domäne befinden) rekursiv folgt, die Seite aber nur herunterlädt, wenn die URL dieser Seite einem Muster entspricht.

Ich habe so etwas versucht:

wget https://www.abc.def --no-clobber -r -e robots=off -U mozilla --domains abc.def --html-extension --accept-regex 'https://www.abc.def/g/h/.*'

Es werden tatsächlich nur Seiten heruntergeladen mit 'https://www.abc.def/g/h/.*'-Muster. Es wird jedoch überhaupt nicht versucht, anderen Links zu folgen.

Irgendeine Idee?

Dank im Voraus!

verwandte Informationen