Remover duplicatas de e-mail (.eml)

Remover duplicatas de e-mail (.eml)

Tenho uma pasta com cerca de 50.000 emails em formato .eml. Existem muitas duplicatas, até mesmo trigêmeos ou quadrigêmeos, suponho que cerca de 30.000 no total. Tentei remover duplicatas usando o complemento Remover mensagens duplicadas do Mozilla Thunderbird (alternativa), mas ele removeu apenas uma pequena parte delas (algumas centenas). Então, usei aplicativos de desktop do Windows, como Wise Duplicate Finder, Duplicate Cleaner Free, AllDup, Fast Duplicate Finder e Anti-Twin, usando Byte por byte (comparação de 60%) e nenhum desses aplicativos conseguiu encontrar duplicatas corretas ( novamente, consegui remover apenas uma parte deles, alguns milhares desta vez).

Anexei um exemplo de dois e-mails que tenho, embora tenham códigos-fonte ligeiramente diferentes (e nomes de arquivos diferentes), eles são basicamente os mesmos - foram enviados do mesmo endereço de e-mail, ao mesmo tempo, e têm o mesmo tamanho do arquivo:

Primeiro e-mail- mensagem-1-34437.eml

Received: from e11mailgw02.isp.com ([212.200.12.195]) by mtain3.isp.com (Sun Java(tm) System Messaging Server 6.3-4.01 (built Aug  3 2007; 32bit)) with ESMTP id <[email protected]> for user@com; Tue, 02 Jun 2009 22:53:58 +0200 (CEST)
Received: from unknown (HELO vps.mafiascene.com) ([69.73.156.173]) by e11mailgw02.isp.com with ESMTP; Tue, 02 Jun 2009 22:53:57 +0200
Received: (qmail 24030 invoked by uid 48); Tue, 02 Jun 2009 16:53:51 -0400
Date: Tue, 02 Jun 2009 16:53:51 -0400
From: "Mafia Scene" <[email protected]>
Subject: Mafia Scene Registration Confirmation
To: <user@com>
X-Priority: 3
X-MSMail-Priority: Normal
Importance: Normal
Message-ID: <[email protected]>
X-IronPort-Anti-Spam-Filtered: true
X-IronPort-Anti-Spam-Result: Au0JAFEuJUpFSZyt/2dsb2JhbACOFhEBsRIRCAMEj2iCMR4IBAwEgSAF
X-IronPort-AV: E=McAfee;i="5300,2777,5634"; a="7766158"
X-MimeOLE: Produced By Microsoft MimeOLE V14.0.8089.726
Old-X-EsetId: 4FAA1F2928B4776950AC1F7F23E634
X-EsetId: 745B6128E6F033696B5D617DE9A773
X-EsetScannerBuild: 6455


Thank you for registering with Mafia Scene!



The details you registered your account with at 4:53pm EDT Tuesday - 2nd June 2009 are as follows:

Username: username 
Password: password

To active your account you MUST visit the following link WITHIN the next 24 HOURS.

http://mafiascene.com/modules.php?name=users&action=activate&id=c284c0e0a7a7aec0772709511b2b8f3e

Regards,

The Mafia Scene Staff


__________ Information from ESET NOD32 Antivirus, version of virus signature database 4124 (20090602) __________

The message was checked by ESET NOD32 Antivirus.

http://www.eset.com





__________ Information from ESET NOD32 Antivirus, version of virus signature database 4801 (20100124) __________

The message was checked by ESET NOD32 Antivirus.

http://www.eset.com

Segundo e-mail- mensagem-1-54557.eml

Received: from e11mailgw02.com ([212.200.12.195])
 by mtain3.isp.com
 (Sun Java(tm) System Messaging Server 6.3-4.01 (built Aug  3 2007; 32bit))
 with ESMTP id <[email protected]> for
 user@com; Tue, 02 Jun 2009 22:53:58 +0200 (CEST)
Received: from unknown (HELO vps.mafiascene.com) ([69.73.156.173])
 by e11mailgw02.com with ESMTP; Tue, 02 Jun 2009 22:53:57 +0200
Received: (qmail 24030 invoked by uid 48); Tue, 02 Jun 2009 16:53:51 -0400
Date: Tue, 02 Jun 2009 16:53:51 -0400
From: Mafia Scene <[email protected]>
Subject: Mafia Scene Registration Confirmation
To: user@com
Message-id: <[email protected]>
X-IronPort-Anti-Spam-Filtered: true
X-IronPort-Anti-Spam-Result:
 Au0JAFEuJUpFSZyt/2dsb2JhbACOFhEBsRIRCAMEj2iCMR4IBAwEgSAF
X-IronPort-AV: E=McAfee;i="5300,2777,5634"; a="7766158"
X-EsetId: 4FAA1F2928B4776950AC1F7F23E634


Thank you for registering with Mafia Scene!



The details you registered your account with at 4:53pm EDT Tuesday - 2nd June 2009 are as follows:

Username: username
Password: password

To active your account you MUST visit the following link WITHIN the next 24 HOURS.

http://mafiascene.com/modules.php?name=users&action=activate&id=c284c0e0a7a7aec0772709511b2b8f3e

Regards,

The Mafia Scene Staff


__________ Information from ESET NOD32 Antivirus, version of virus signature database 4124 (20090602) __________

The message was checked by ESET NOD32 Antivirus.

http://www.eset.com

Existe alguma maneira de detectar e-mails como duplicados?

Responder1

Os cabeçalhos são completamente diferentes e seu conteúdo também. Essas informações não são discerníveis por soluções comuns para encontrar duplicatas.

Você terá que preparar algo de sua preferência. Por exemplo, você pode escrever um script para extrair as informações que são relevantes para você, marcar suspeitas de duplicatas e aplicar alguma outra técnica para verificar se é realmente uma duplicata. Provavelmente envolverá trabalho manual até certo ponto.

Um primeiro passo mais fácil seria simplesmente cortar os cabeçalhos e executar a comparação.

informação relacionada