Как найти все упоминания адреса электронной почты на веб-сайте

Как найти все упоминания адреса электронной почты на веб-сайте

Допустим, у меня есть большой веб-сайт, на котором может быть несколько адресов электронной почты, которые подбираются спамерами. Я планирую скрыть или удалить их все.

Какой самый простой способ просканировать мой веб-сайт, чтобы найти адреса электронной почты, которые я могу раскрыть?

Либо через текст на странице (который Google может распознать, но не очень хорошо), либо через ссылки mailto: (которые Google не может).

решение1

Что-то вроде:

wget --mirror --html-extension http://www.mydomain.org/ -o /home/user/temp_site/

затем

grep -Hinr "@mydomain.org" /home/user/temp_site/ > /home/user/list_of_pages_with_email

Должен вернуть список всех страниц (с номерами строк), содержащих адреса электронной почты ваших доменов.

Возможно, потребуется доработка.

Руководства дляwgetигрэп

Связанный контент