![Wie erreiche ich, dass wget exakte Domänennamen abgleicht?](https://rvso.com/image/1413942/Wie%20erreiche%20ich%2C%20dass%20wget%20exakte%20Dom%C3%A4nennamen%20abgleicht%3F.png)
Ich verwende den folgenden Befehl, um eine Site zu spiegeln:
wget -r -p -E -N -l 10 -k -nH -H -Dfoo.com,www.foo.com foo.com
Mein Problem ist, dass es irgendwo auf foo.com Links zu Domänen gibt, die auf foo.com enden (zum Beispiel newfoo.com) und wget diese Site ebenfalls spiegelt. Ist es möglich, die Domänen auf eine genaue Übereinstimmung zu beschränken? Ich möchte keine anderen Subdomänen als www crawlen.
Antwort1
Leider führt wget beim Crawlen einer Site nur einen Soft-Match für akzeptierte Domänen durch. Beispielsweise würden alle folgenden Domänen mit foo.com übereinstimmen:
- barfoo.com
- bar.foo.com
- alles.kann.hier.hingehen.foo.com
Ich habe tatsächlich einPatchfür wget 1.15, um eine Option zum Aktivieren dieses strikten Übereinstimmungsverhaltens hinzuzufügen. Mit diesem Patch muss die gesamte Domäne exakt übereinstimmen. Andere Domänenlisten wie ausgeschlossene Domänen usw. werden davon nicht beeinflusst.