Angenommen, ich habe eine große Website, auf der sich möglicherweise eine Reihe von E-Mail-Adressen befinden, die von Spammern erfasst werden. Ich habe vor, sie alle zu verschleiern oder zu entfernen.
Wie kann ich meine Website am einfachsten crawlen, um alle möglicherweise preisgegebenen E-Mail-Adressen zu finden?
Entweder über On-Page-Text (den Google erkennen kann, aber nicht sehr gut) oder Mailto:-Links (die Google nicht erkennen kann).
Antwort1
Etwas wie:
wget --mirror --html-extension http://www.mydomain.org/ -o /home/user/temp_site/
Dann
grep -Hinr "@mydomain.org" /home/user/temp_site/ > /home/user/list_of_pages_with_email
Sollte eine Liste aller Seiten (mit Zeilennummern) zurückgeben, die die E-Mail-Adressen Ihrer Domänen enthalten.
Möglicherweise müssen noch Anpassungen vorgenommen werden.