웹사이트에서 이메일 주소의 모든 항목을 찾는 방법

웹사이트에서 이메일 주소의 모든 항목을 찾는 방법

스패머에 의해 포착되는 다수의 이메일 주소가 있는 대규모 웹사이트가 있다고 가정해 보겠습니다. 모두 난독화하거나 제거할 계획입니다.

노출될 수 있는 이메일 주소를 찾기 위해 내 웹사이트를 크롤링하는 가장 쉬운 방법은 무엇입니까?

페이지의 텍스트(Google이 인식할 수 있지만 잘 인식하지는 못함) 또는 mailto: 링크(Google은 인식할 수 없음)를 통해.

답변1

다음과 같은 것 :

wget --mirror --html-extension http://www.mydomain.org/ -o /home/user/temp_site/

그 다음에

grep -Hinr "@mydomain.org" /home/user/temp_site/ > /home/user/list_of_pages_with_email

도메인 이메일 주소가 포함된 모든 페이지 목록(행 번호 포함)을 반환해야 합니다.

조정이 필요할 수도 있습니다.

매뉴얼wget그리고grep

관련 정보