.eml 形式のメールが約 50,000 件入ったフォルダーがあります。重複メールが多数あり、3 つまたは 4 つ重なっているものもあり、合計で約 30,000 件あると思います。Mozilla Thunderbird アドオン Remove Duplicate Messages (代替) を使用して重複メールを削除しようとしましたが、削除されたのはごく一部 (数百) だけでした。その後、Wise duplicate finder、duplicate cleaner free、AllDup、Fast Duplicate finder、Anti-Twin などの Windows デスクトップ アプリを Byte by byte (60% の比較) を使用して使用しましたが、これらのアプリケーションのいずれも正しい重複メールを見つけることができませんでした (今回も、削除できたのは一部、数千件だけです)。
私が持っている 2 つの電子メールの例を添付しました。ソース コードは若干異なりますが (ファイル名も異なります)、基本的には同じです。同じ電子メール アドレスから同じ時間に送信され、ファイル サイズも同じです。
最初のメール- メッセージ-1-34437.eml
Received: from e11mailgw02.isp.com ([212.200.12.195]) by mtain3.isp.com (Sun Java(tm) System Messaging Server 6.3-4.01 (built Aug 3 2007; 32bit)) with ESMTP id <[email protected]> for user@com; Tue, 02 Jun 2009 22:53:58 +0200 (CEST)
Received: from unknown (HELO vps.mafiascene.com) ([69.73.156.173]) by e11mailgw02.isp.com with ESMTP; Tue, 02 Jun 2009 22:53:57 +0200
Received: (qmail 24030 invoked by uid 48); Tue, 02 Jun 2009 16:53:51 -0400
Date: Tue, 02 Jun 2009 16:53:51 -0400
From: "Mafia Scene" <[email protected]>
Subject: Mafia Scene Registration Confirmation
To: <user@com>
X-Priority: 3
X-MSMail-Priority: Normal
Importance: Normal
Message-ID: <[email protected]>
X-IronPort-Anti-Spam-Filtered: true
X-IronPort-Anti-Spam-Result: Au0JAFEuJUpFSZyt/2dsb2JhbACOFhEBsRIRCAMEj2iCMR4IBAwEgSAF
X-IronPort-AV: E=McAfee;i="5300,2777,5634"; a="7766158"
X-MimeOLE: Produced By Microsoft MimeOLE V14.0.8089.726
Old-X-EsetId: 4FAA1F2928B4776950AC1F7F23E634
X-EsetId: 745B6128E6F033696B5D617DE9A773
X-EsetScannerBuild: 6455
Thank you for registering with Mafia Scene!
The details you registered your account with at 4:53pm EDT Tuesday - 2nd June 2009 are as follows:
Username: username
Password: password
To active your account you MUST visit the following link WITHIN the next 24 HOURS.
http://mafiascene.com/modules.php?name=users&action=activate&id=c284c0e0a7a7aec0772709511b2b8f3e
Regards,
The Mafia Scene Staff
__________ Information from ESET NOD32 Antivirus, version of virus signature database 4124 (20090602) __________
The message was checked by ESET NOD32 Antivirus.
http://www.eset.com
__________ Information from ESET NOD32 Antivirus, version of virus signature database 4801 (20100124) __________
The message was checked by ESET NOD32 Antivirus.
http://www.eset.com
2番目のメール- メッセージ-1-54557.eml
Received: from e11mailgw02.com ([212.200.12.195])
by mtain3.isp.com
(Sun Java(tm) System Messaging Server 6.3-4.01 (built Aug 3 2007; 32bit))
with ESMTP id <[email protected]> for
user@com; Tue, 02 Jun 2009 22:53:58 +0200 (CEST)
Received: from unknown (HELO vps.mafiascene.com) ([69.73.156.173])
by e11mailgw02.com with ESMTP; Tue, 02 Jun 2009 22:53:57 +0200
Received: (qmail 24030 invoked by uid 48); Tue, 02 Jun 2009 16:53:51 -0400
Date: Tue, 02 Jun 2009 16:53:51 -0400
From: Mafia Scene <[email protected]>
Subject: Mafia Scene Registration Confirmation
To: user@com
Message-id: <[email protected]>
X-IronPort-Anti-Spam-Filtered: true
X-IronPort-Anti-Spam-Result:
Au0JAFEuJUpFSZyt/2dsb2JhbACOFhEBsRIRCAMEj2iCMR4IBAwEgSAF
X-IronPort-AV: E=McAfee;i="5300,2777,5634"; a="7766158"
X-EsetId: 4FAA1F2928B4776950AC1F7F23E634
Thank you for registering with Mafia Scene!
The details you registered your account with at 4:53pm EDT Tuesday - 2nd June 2009 are as follows:
Username: username
Password: password
To active your account you MUST visit the following link WITHIN the next 24 HOURS.
http://mafiascene.com/modules.php?name=users&action=activate&id=c284c0e0a7a7aec0772709511b2b8f3e
Regards,
The Mafia Scene Staff
__________ Information from ESET NOD32 Antivirus, version of virus signature database 4124 (20090602) __________
The message was checked by ESET NOD32 Antivirus.
http://www.eset.com
このようなメールを重複として検出する方法はありますか?
答え1
ヘッダーは完全に異なり、その内容も異なります。その情報は、重複を見つけるための一般的なソリューションでは識別できません。
自分で何かを作る必要があります。たとえば、自分にとって関連のある情報を抽出し、重複の疑いがあるものをマークし、実際に重複しているかどうかを確認する他のテクニックを適用するスクリプトを作成できます。おそらく、ある程度は手作業が必要になるでしょう。
より簡単な最初のステップとしては、ヘッダーを切り取って比較を実行することです。