Допустим, у меня есть большой веб-сайт, на котором может быть несколько адресов электронной почты, которые подбираются спамерами. Я планирую скрыть или удалить их все.
Какой самый простой способ просканировать мой веб-сайт, чтобы найти адреса электронной почты, которые я могу раскрыть?
Либо через текст на странице (который Google может распознать, но не очень хорошо), либо через ссылки mailto: (которые Google не может).
решение1
Что-то вроде:
wget --mirror --html-extension http://www.mydomain.org/ -o /home/user/temp_site/
затем
grep -Hinr "@mydomain.org" /home/user/temp_site/ > /home/user/list_of_pages_with_email
Должен вернуть список всех страниц (с номерами строк), содержащих адреса электронной почты ваших доменов.
Возможно, потребуется доработка.