ウェブサイト上のメールアドレスの出現箇所をすべて見つける方法

ウェブサイト上のメールアドレスの出現箇所をすべて見つける方法

たとえば、スパマーに拾われてしまう可能性のある多数の電子メール アドレスが掲載されている大規模な Web サイトがあるとします。それらすべてを難読化するか削除する予定です。

自分の Web サイトをクロールして、公開されている可能性のある電子メール アドレスを見つける最も簡単な方法は何ですか?

ページ上のテキスト(Google は認識できますが、あまりうまく認識できません)または mailto: リンク(Google は認識できません)のいずれかを介して行われます。

答え1

何かのようなもの:

wget --mirror --html-extension http://www.mydomain.org/ -o /home/user/temp_site/

それから

grep -Hinr "@mydomain.org" /home/user/temp_site/ > /home/user/list_of_pages_with_email

ドメインの電子メール アドレスが含まれるすべてのページのリスト (行番号付き) を返します。

調整が必要かもしれません。

マニュアルwgetそしてグレップ

関連情報