이메일(.eml) 중복 제거

이메일(.eml) 중복 제거

.eml 형식의 이메일이 약 50,000개 있는 폴더가 있습니다. 많은 중복, 심지어 세 쌍둥이나 네 쌍둥이도 있습니다. 총 30,000개 정도 되는 것 같아요. Mozilla Thunderbird 추가 기능 중복 메시지 제거(대체)를 사용하여 중복 메시지를 제거하려고 시도했지만 그 중 일부(수백 개)만 제거되었습니다. 그런 다음 Wise Duplicate Finder, Duplicate Cleaner Free, AllDup, Fast Duplicate Finder 및 Anti-Twin과 같은 Windows 데스크톱 앱을 바이트 단위(60% 비교)를 사용했지만 해당 응용 프로그램 중 어느 것도 올바른 중복을 찾는 데 성공하지 못했습니다( 다시 말하지만, 이번에는 그 중 일부, 즉 수천 개만 제거했습니다.

제가 가지고 있는 두 개의 이메일의 예를 첨부했습니다. 소스 코드와 파일 이름이 약간 다르지만 기본적으로 동일합니다. 동일한 이메일 주소에서 동시에 전송되었으며 동일한 내용을 가지고 있습니다. 파일 크기:

첫 번째 이메일- message-1-34437.eml

Received: from e11mailgw02.isp.com ([212.200.12.195]) by mtain3.isp.com (Sun Java(tm) System Messaging Server 6.3-4.01 (built Aug  3 2007; 32bit)) with ESMTP id <[email protected]> for user@com; Tue, 02 Jun 2009 22:53:58 +0200 (CEST)
Received: from unknown (HELO vps.mafiascene.com) ([69.73.156.173]) by e11mailgw02.isp.com with ESMTP; Tue, 02 Jun 2009 22:53:57 +0200
Received: (qmail 24030 invoked by uid 48); Tue, 02 Jun 2009 16:53:51 -0400
Date: Tue, 02 Jun 2009 16:53:51 -0400
From: "Mafia Scene" <[email protected]>
Subject: Mafia Scene Registration Confirmation
To: <user@com>
X-Priority: 3
X-MSMail-Priority: Normal
Importance: Normal
Message-ID: <[email protected]>
X-IronPort-Anti-Spam-Filtered: true
X-IronPort-Anti-Spam-Result: Au0JAFEuJUpFSZyt/2dsb2JhbACOFhEBsRIRCAMEj2iCMR4IBAwEgSAF
X-IronPort-AV: E=McAfee;i="5300,2777,5634"; a="7766158"
X-MimeOLE: Produced By Microsoft MimeOLE V14.0.8089.726
Old-X-EsetId: 4FAA1F2928B4776950AC1F7F23E634
X-EsetId: 745B6128E6F033696B5D617DE9A773
X-EsetScannerBuild: 6455


Thank you for registering with Mafia Scene!



The details you registered your account with at 4:53pm EDT Tuesday - 2nd June 2009 are as follows:

Username: username 
Password: password

To active your account you MUST visit the following link WITHIN the next 24 HOURS.

http://mafiascene.com/modules.php?name=users&action=activate&id=c284c0e0a7a7aec0772709511b2b8f3e

Regards,

The Mafia Scene Staff


__________ Information from ESET NOD32 Antivirus, version of virus signature database 4124 (20090602) __________

The message was checked by ESET NOD32 Antivirus.

http://www.eset.com





__________ Information from ESET NOD32 Antivirus, version of virus signature database 4801 (20100124) __________

The message was checked by ESET NOD32 Antivirus.

http://www.eset.com

두 번째 이메일- message-1-54557.eml

Received: from e11mailgw02.com ([212.200.12.195])
 by mtain3.isp.com
 (Sun Java(tm) System Messaging Server 6.3-4.01 (built Aug  3 2007; 32bit))
 with ESMTP id <[email protected]> for
 user@com; Tue, 02 Jun 2009 22:53:58 +0200 (CEST)
Received: from unknown (HELO vps.mafiascene.com) ([69.73.156.173])
 by e11mailgw02.com with ESMTP; Tue, 02 Jun 2009 22:53:57 +0200
Received: (qmail 24030 invoked by uid 48); Tue, 02 Jun 2009 16:53:51 -0400
Date: Tue, 02 Jun 2009 16:53:51 -0400
From: Mafia Scene <[email protected]>
Subject: Mafia Scene Registration Confirmation
To: user@com
Message-id: <[email protected]>
X-IronPort-Anti-Spam-Filtered: true
X-IronPort-Anti-Spam-Result:
 Au0JAFEuJUpFSZyt/2dsb2JhbACOFhEBsRIRCAMEj2iCMR4IBAwEgSAF
X-IronPort-AV: E=McAfee;i="5300,2777,5634"; a="7766158"
X-EsetId: 4FAA1F2928B4776950AC1F7F23E634


Thank you for registering with Mafia Scene!



The details you registered your account with at 4:53pm EDT Tuesday - 2nd June 2009 are as follows:

Username: username
Password: password

To active your account you MUST visit the following link WITHIN the next 24 HOURS.

http://mafiascene.com/modules.php?name=users&action=activate&id=c284c0e0a7a7aec0772709511b2b8f3e

Regards,

The Mafia Scene Staff


__________ Information from ESET NOD32 Antivirus, version of virus signature database 4124 (20090602) __________

The message was checked by ESET NOD32 Antivirus.

http://www.eset.com

중복된 이메일을 감지할 수 있는 방법이 있나요?

답변1

헤더는 완전히 다르며 내용도 다릅니다. 해당 정보는 중복 항목을 찾는 일반적인 솔루션으로는 식별할 수 없습니다.

당신은 당신 자신의 것을 끓여야 할 것입니다. 예를 들어, 관련 정보를 추출하고 중복으로 의심되는 항목을 표시하고 다른 기술을 적용하여 실제로 중복될 때마다 확인하는 스크립트를 작성할 수 있습니다. 아마도 어느 정도 수작업이 필요할 것입니다.

더 쉬운 첫 번째 단계는 헤더를 잘라내고 비교를 실행하는 것입니다.

관련 정보