Digamos que tengo un sitio web grande que puede tener varias direcciones de correo electrónico que están siendo detectadas por spammers. Planeo ofuscarlos o eliminarlos a todos.
¿Cuál es la forma más sencilla de rastrear mi sitio web para encontrar direcciones de correo electrónico que pueda estar exponiendo?
Ya sea a través de texto en la página (que Google puede captar, pero no muy bien) o enlaces mailto: (que Google no puede).
Respuesta1
Algo como:
wget --mirror --html-extension http://www.mydomain.org/ -o /home/user/temp_site/
entonces
grep -Hinr "@mydomain.org" /home/user/temp_site/ > /home/user/list_of_pages_with_email
Debería devolver una lista de todas las páginas (con números de línea) que contienen las direcciones de correo electrónico de su dominio.
Podría necesitar ajustes.