So finden Sie alle Vorkommen einer E-Mail-Adresse auf einer Website

So finden Sie alle Vorkommen einer E-Mail-Adresse auf einer Website

Angenommen, ich habe eine große Website, auf der sich möglicherweise eine Reihe von E-Mail-Adressen befinden, die von Spammern erfasst werden. Ich habe vor, sie alle zu verschleiern oder zu entfernen.

Wie kann ich meine Website am einfachsten crawlen, um alle möglicherweise preisgegebenen E-Mail-Adressen zu finden?

Entweder über On-Page-Text (den Google erkennen kann, aber nicht sehr gut) oder Mailto:-Links (die Google nicht erkennen kann).

Antwort1

Etwas wie:

wget --mirror --html-extension http://www.mydomain.org/ -o /home/user/temp_site/

Dann

grep -Hinr "@mydomain.org" /home/user/temp_site/ > /home/user/list_of_pages_with_email

Sollte eine Liste aller Seiten (mit Zeilennummern) zurückgeben, die die E-Mail-Adressen Ihrer Domänen enthalten.

Möglicherweise müssen noch Anpassungen vorgenommen werden.

Handbücher fürwgetUndgrep

verwandte Informationen