Tenho uma pasta com cerca de 50.000 emails em formato .eml. Existem muitas duplicatas, até mesmo trigêmeos ou quadrigêmeos, suponho que cerca de 30.000 no total. Tentei remover duplicatas usando o complemento Remover mensagens duplicadas do Mozilla Thunderbird (alternativa), mas ele removeu apenas uma pequena parte delas (algumas centenas). Então, usei aplicativos de desktop do Windows, como Wise Duplicate Finder, Duplicate Cleaner Free, AllDup, Fast Duplicate Finder e Anti-Twin, usando Byte por byte (comparação de 60%) e nenhum desses aplicativos conseguiu encontrar duplicatas corretas ( novamente, consegui remover apenas uma parte deles, alguns milhares desta vez).
Anexei um exemplo de dois e-mails que tenho, embora tenham códigos-fonte ligeiramente diferentes (e nomes de arquivos diferentes), eles são basicamente os mesmos - foram enviados do mesmo endereço de e-mail, ao mesmo tempo, e têm o mesmo tamanho do arquivo:
Primeiro e-mail- mensagem-1-34437.eml
Received: from e11mailgw02.isp.com ([212.200.12.195]) by mtain3.isp.com (Sun Java(tm) System Messaging Server 6.3-4.01 (built Aug 3 2007; 32bit)) with ESMTP id <[email protected]> for user@com; Tue, 02 Jun 2009 22:53:58 +0200 (CEST)
Received: from unknown (HELO vps.mafiascene.com) ([69.73.156.173]) by e11mailgw02.isp.com with ESMTP; Tue, 02 Jun 2009 22:53:57 +0200
Received: (qmail 24030 invoked by uid 48); Tue, 02 Jun 2009 16:53:51 -0400
Date: Tue, 02 Jun 2009 16:53:51 -0400
From: "Mafia Scene" <[email protected]>
Subject: Mafia Scene Registration Confirmation
To: <user@com>
X-Priority: 3
X-MSMail-Priority: Normal
Importance: Normal
Message-ID: <[email protected]>
X-IronPort-Anti-Spam-Filtered: true
X-IronPort-Anti-Spam-Result: Au0JAFEuJUpFSZyt/2dsb2JhbACOFhEBsRIRCAMEj2iCMR4IBAwEgSAF
X-IronPort-AV: E=McAfee;i="5300,2777,5634"; a="7766158"
X-MimeOLE: Produced By Microsoft MimeOLE V14.0.8089.726
Old-X-EsetId: 4FAA1F2928B4776950AC1F7F23E634
X-EsetId: 745B6128E6F033696B5D617DE9A773
X-EsetScannerBuild: 6455
Thank you for registering with Mafia Scene!
The details you registered your account with at 4:53pm EDT Tuesday - 2nd June 2009 are as follows:
Username: username
Password: password
To active your account you MUST visit the following link WITHIN the next 24 HOURS.
http://mafiascene.com/modules.php?name=users&action=activate&id=c284c0e0a7a7aec0772709511b2b8f3e
Regards,
The Mafia Scene Staff
__________ Information from ESET NOD32 Antivirus, version of virus signature database 4124 (20090602) __________
The message was checked by ESET NOD32 Antivirus.
http://www.eset.com
__________ Information from ESET NOD32 Antivirus, version of virus signature database 4801 (20100124) __________
The message was checked by ESET NOD32 Antivirus.
http://www.eset.com
Segundo e-mail- mensagem-1-54557.eml
Received: from e11mailgw02.com ([212.200.12.195])
by mtain3.isp.com
(Sun Java(tm) System Messaging Server 6.3-4.01 (built Aug 3 2007; 32bit))
with ESMTP id <[email protected]> for
user@com; Tue, 02 Jun 2009 22:53:58 +0200 (CEST)
Received: from unknown (HELO vps.mafiascene.com) ([69.73.156.173])
by e11mailgw02.com with ESMTP; Tue, 02 Jun 2009 22:53:57 +0200
Received: (qmail 24030 invoked by uid 48); Tue, 02 Jun 2009 16:53:51 -0400
Date: Tue, 02 Jun 2009 16:53:51 -0400
From: Mafia Scene <[email protected]>
Subject: Mafia Scene Registration Confirmation
To: user@com
Message-id: <[email protected]>
X-IronPort-Anti-Spam-Filtered: true
X-IronPort-Anti-Spam-Result:
Au0JAFEuJUpFSZyt/2dsb2JhbACOFhEBsRIRCAMEj2iCMR4IBAwEgSAF
X-IronPort-AV: E=McAfee;i="5300,2777,5634"; a="7766158"
X-EsetId: 4FAA1F2928B4776950AC1F7F23E634
Thank you for registering with Mafia Scene!
The details you registered your account with at 4:53pm EDT Tuesday - 2nd June 2009 are as follows:
Username: username
Password: password
To active your account you MUST visit the following link WITHIN the next 24 HOURS.
http://mafiascene.com/modules.php?name=users&action=activate&id=c284c0e0a7a7aec0772709511b2b8f3e
Regards,
The Mafia Scene Staff
__________ Information from ESET NOD32 Antivirus, version of virus signature database 4124 (20090602) __________
The message was checked by ESET NOD32 Antivirus.
http://www.eset.com
Existe alguma maneira de detectar e-mails como duplicados?
Responder1
Os cabeçalhos são completamente diferentes e seu conteúdo também. Essas informações não são discerníveis por soluções comuns para encontrar duplicatas.
Você terá que preparar algo de sua preferência. Por exemplo, você pode escrever um script para extrair as informações que são relevantes para você, marcar suspeitas de duplicatas e aplicar alguma outra técnica para verificar se é realmente uma duplicata. Provavelmente envolverá trabalho manual até certo ponto.
Um primeiro passo mais fácil seria simplesmente cortar os cabeçalhos e executar a comparação.