E-Mail-Duplikate (.eml) entfernen

E-Mail-Duplikate (.eml) entfernen

Ich habe einen Ordner mit rund 50.000 E-Mails im .eml-Format. Darin sind viele Duplikate, sogar Dreier- oder Vierergruppen, insgesamt schätze ich etwa 30.000. Ich habe versucht, Duplikate mit dem Mozilla Thunderbird-Add-on Remove Duplicate Messages (Alternative) zu entfernen, aber es hat nur einen kleinen Teil davon entfernt (einige Hundert). Dann habe ich Windows-Desktop-Apps wie Wise Duplicate Finder, Duplicate Cleaner Free, AllDup, Fast Duplicate Finder und Anti-Twin verwendet, Byte für Byte (60 % Vergleich) und keine dieser Anwendungen konnte die richtigen Duplikate finden (auch hier habe ich es geschafft, nur einen Teil davon zu entfernen, dieses Mal einige Tausend).

Ich habe zwei Beispiele von E-Mails angehängt, die ich habe. Obwohl sie leicht unterschiedlichen Quellcode (und unterschiedliche Dateinamen) haben, sind sie im Grunde gleich – sie wurden von derselben E-Mail-Adresse, zur selben Zeit gesendet und haben dieselbe Dateigröße:

Erste E-Mail- Nachricht-1-34437.eml

Received: from e11mailgw02.isp.com ([212.200.12.195]) by mtain3.isp.com (Sun Java(tm) System Messaging Server 6.3-4.01 (built Aug  3 2007; 32bit)) with ESMTP id <[email protected]> for user@com; Tue, 02 Jun 2009 22:53:58 +0200 (CEST)
Received: from unknown (HELO vps.mafiascene.com) ([69.73.156.173]) by e11mailgw02.isp.com with ESMTP; Tue, 02 Jun 2009 22:53:57 +0200
Received: (qmail 24030 invoked by uid 48); Tue, 02 Jun 2009 16:53:51 -0400
Date: Tue, 02 Jun 2009 16:53:51 -0400
From: "Mafia Scene" <[email protected]>
Subject: Mafia Scene Registration Confirmation
To: <user@com>
X-Priority: 3
X-MSMail-Priority: Normal
Importance: Normal
Message-ID: <[email protected]>
X-IronPort-Anti-Spam-Filtered: true
X-IronPort-Anti-Spam-Result: Au0JAFEuJUpFSZyt/2dsb2JhbACOFhEBsRIRCAMEj2iCMR4IBAwEgSAF
X-IronPort-AV: E=McAfee;i="5300,2777,5634"; a="7766158"
X-MimeOLE: Produced By Microsoft MimeOLE V14.0.8089.726
Old-X-EsetId: 4FAA1F2928B4776950AC1F7F23E634
X-EsetId: 745B6128E6F033696B5D617DE9A773
X-EsetScannerBuild: 6455


Thank you for registering with Mafia Scene!



The details you registered your account with at 4:53pm EDT Tuesday - 2nd June 2009 are as follows:

Username: username 
Password: password

To active your account you MUST visit the following link WITHIN the next 24 HOURS.

http://mafiascene.com/modules.php?name=users&action=activate&id=c284c0e0a7a7aec0772709511b2b8f3e

Regards,

The Mafia Scene Staff


__________ Information from ESET NOD32 Antivirus, version of virus signature database 4124 (20090602) __________

The message was checked by ESET NOD32 Antivirus.

http://www.eset.com





__________ Information from ESET NOD32 Antivirus, version of virus signature database 4801 (20100124) __________

The message was checked by ESET NOD32 Antivirus.

http://www.eset.com

Zweite E-Mail- Nachricht-1-54557.eml

Received: from e11mailgw02.com ([212.200.12.195])
 by mtain3.isp.com
 (Sun Java(tm) System Messaging Server 6.3-4.01 (built Aug  3 2007; 32bit))
 with ESMTP id <[email protected]> for
 user@com; Tue, 02 Jun 2009 22:53:58 +0200 (CEST)
Received: from unknown (HELO vps.mafiascene.com) ([69.73.156.173])
 by e11mailgw02.com with ESMTP; Tue, 02 Jun 2009 22:53:57 +0200
Received: (qmail 24030 invoked by uid 48); Tue, 02 Jun 2009 16:53:51 -0400
Date: Tue, 02 Jun 2009 16:53:51 -0400
From: Mafia Scene <[email protected]>
Subject: Mafia Scene Registration Confirmation
To: user@com
Message-id: <[email protected]>
X-IronPort-Anti-Spam-Filtered: true
X-IronPort-Anti-Spam-Result:
 Au0JAFEuJUpFSZyt/2dsb2JhbACOFhEBsRIRCAMEj2iCMR4IBAwEgSAF
X-IronPort-AV: E=McAfee;i="5300,2777,5634"; a="7766158"
X-EsetId: 4FAA1F2928B4776950AC1F7F23E634


Thank you for registering with Mafia Scene!



The details you registered your account with at 4:53pm EDT Tuesday - 2nd June 2009 are as follows:

Username: username
Password: password

To active your account you MUST visit the following link WITHIN the next 24 HOURS.

http://mafiascene.com/modules.php?name=users&action=activate&id=c284c0e0a7a7aec0772709511b2b8f3e

Regards,

The Mafia Scene Staff


__________ Information from ESET NOD32 Antivirus, version of virus signature database 4124 (20090602) __________

The message was checked by ESET NOD32 Antivirus.

http://www.eset.com

Gibt es eine Möglichkeit, solche E-Mails als Duplikate zu erkennen?

Antwort1

Die Überschriften sind völlig unterschiedlich und auch ihr Inhalt ist unterschiedlich. Diese Information ist mit herkömmlichen Lösungen zur Duplikatssuche nicht erkennbar.

Sie müssen sich etwas Eigenes einfallen lassen. Sie könnten beispielsweise ein Skript schreiben, um die für Sie relevanten Informationen zu extrahieren, verdächtige Duplikate zu markieren und eine andere Technik anzuwenden, um zu prüfen, ob es sich tatsächlich um ein Duplikat handelt. Dies wird wahrscheinlich zu einem gewissen Grad Handarbeit erfordern.

Ein einfacherer erster Schritt könnte darin bestehen, einfach die Header abzuschneiden und den Vergleich auszuführen.

verwandte Informationen