Tengo una carpeta con alrededor de 50.000 correos electrónicos en formato .eml. Hay muchos duplicados, incluso trillizos o cuatrillizos, supongo que alrededor de 30.000 en total. Intenté eliminar duplicados usando el complemento de Mozilla Thunderbird Eliminar mensajes duplicados (alternativa), pero eliminó solo una pequeña parte de ellos (unos cientos). Luego, usé aplicaciones de escritorio de Windows, como Wise Duplicate Finder, Duplicate Cleaner Free, AllDup, Fast Duplicate Finder y Anti-Twin, usando Byte a byte (60% de comparación) y ninguna de esas aplicaciones logró encontrar duplicados correctos ( Nuevamente, logré eliminar solo una parte de ellos, esta vez unos pocos miles).
Adjunto un ejemplo de dos correos electrónicos que tengo, aunque tienen un código fuente ligeramente diferente (y diferentes nombres de archivo), son básicamente iguales: se enviaron desde la misma dirección de correo electrónico, al mismo tiempo y tienen el mismo tamaño del archivo:
Primer correo electrónico- mensaje-1-34437.eml
Received: from e11mailgw02.isp.com ([212.200.12.195]) by mtain3.isp.com (Sun Java(tm) System Messaging Server 6.3-4.01 (built Aug 3 2007; 32bit)) with ESMTP id <[email protected]> for user@com; Tue, 02 Jun 2009 22:53:58 +0200 (CEST)
Received: from unknown (HELO vps.mafiascene.com) ([69.73.156.173]) by e11mailgw02.isp.com with ESMTP; Tue, 02 Jun 2009 22:53:57 +0200
Received: (qmail 24030 invoked by uid 48); Tue, 02 Jun 2009 16:53:51 -0400
Date: Tue, 02 Jun 2009 16:53:51 -0400
From: "Mafia Scene" <[email protected]>
Subject: Mafia Scene Registration Confirmation
To: <user@com>
X-Priority: 3
X-MSMail-Priority: Normal
Importance: Normal
Message-ID: <[email protected]>
X-IronPort-Anti-Spam-Filtered: true
X-IronPort-Anti-Spam-Result: Au0JAFEuJUpFSZyt/2dsb2JhbACOFhEBsRIRCAMEj2iCMR4IBAwEgSAF
X-IronPort-AV: E=McAfee;i="5300,2777,5634"; a="7766158"
X-MimeOLE: Produced By Microsoft MimeOLE V14.0.8089.726
Old-X-EsetId: 4FAA1F2928B4776950AC1F7F23E634
X-EsetId: 745B6128E6F033696B5D617DE9A773
X-EsetScannerBuild: 6455
Thank you for registering with Mafia Scene!
The details you registered your account with at 4:53pm EDT Tuesday - 2nd June 2009 are as follows:
Username: username
Password: password
To active your account you MUST visit the following link WITHIN the next 24 HOURS.
http://mafiascene.com/modules.php?name=users&action=activate&id=c284c0e0a7a7aec0772709511b2b8f3e
Regards,
The Mafia Scene Staff
__________ Information from ESET NOD32 Antivirus, version of virus signature database 4124 (20090602) __________
The message was checked by ESET NOD32 Antivirus.
http://www.eset.com
__________ Information from ESET NOD32 Antivirus, version of virus signature database 4801 (20100124) __________
The message was checked by ESET NOD32 Antivirus.
http://www.eset.com
Segundo correo electrónico- mensaje-1-54557.eml
Received: from e11mailgw02.com ([212.200.12.195])
by mtain3.isp.com
(Sun Java(tm) System Messaging Server 6.3-4.01 (built Aug 3 2007; 32bit))
with ESMTP id <[email protected]> for
user@com; Tue, 02 Jun 2009 22:53:58 +0200 (CEST)
Received: from unknown (HELO vps.mafiascene.com) ([69.73.156.173])
by e11mailgw02.com with ESMTP; Tue, 02 Jun 2009 22:53:57 +0200
Received: (qmail 24030 invoked by uid 48); Tue, 02 Jun 2009 16:53:51 -0400
Date: Tue, 02 Jun 2009 16:53:51 -0400
From: Mafia Scene <[email protected]>
Subject: Mafia Scene Registration Confirmation
To: user@com
Message-id: <[email protected]>
X-IronPort-Anti-Spam-Filtered: true
X-IronPort-Anti-Spam-Result:
Au0JAFEuJUpFSZyt/2dsb2JhbACOFhEBsRIRCAMEj2iCMR4IBAwEgSAF
X-IronPort-AV: E=McAfee;i="5300,2777,5634"; a="7766158"
X-EsetId: 4FAA1F2928B4776950AC1F7F23E634
Thank you for registering with Mafia Scene!
The details you registered your account with at 4:53pm EDT Tuesday - 2nd June 2009 are as follows:
Username: username
Password: password
To active your account you MUST visit the following link WITHIN the next 24 HOURS.
http://mafiascene.com/modules.php?name=users&action=activate&id=c284c0e0a7a7aec0772709511b2b8f3e
Regards,
The Mafia Scene Staff
__________ Information from ESET NOD32 Antivirus, version of virus signature database 4124 (20090602) __________
The message was checked by ESET NOD32 Antivirus.
http://www.eset.com
¿Existe alguna forma de detectar dichos correos electrónicos como duplicados?
Respuesta1
Los encabezados son completamente diferentes y su contenido también difiere. Esa información no es discernible mediante soluciones comunes para encontrar duplicados.
Tendrás que inventar algo propio. Por ejemplo, podría escribir un script para extraer la información que sea relevante para usted, marcar duplicados sospechosos y aplicar alguna otra técnica para verificar siempre que sea realmente un duplicado. Probablemente implique trabajo manual hasta cierto punto.
Un primer paso más sencillo podría ser simplemente cortar los encabezados y ejecutar la comparación.