Digamos que eu tenha um site grande que pode conter vários endereços de e-mail que estão sendo capturados por spammers. Pretendo ofuscar ou remover todos eles.
Qual é a maneira mais fácil de rastrear meu site para encontrar endereços de e-mail que eu possa estar expondo?
Seja por meio de texto na página (que o Google consegue captar, mas não muito bem) ou links mailto: (que o Google não consegue).
Responder1
Algo como:
wget --mirror --html-extension http://www.mydomain.org/ -o /home/user/temp_site/
então
grep -Hinr "@mydomain.org" /home/user/temp_site/ > /home/user/list_of_pages_with_email
Deve retornar uma lista de todas as páginas (com números de linha) que contêm os endereços de e-mail do seu domínio.
Pode precisar de ajustes.