У меня есть папка с примерно 50 000 писем в формате .eml. Там много дубликатов, даже тройки или четверки, я полагаю, что всего около 30 000. Я пытался удалить дубликаты с помощью дополнения Mozilla Thunderbird Remove Duplicate Messages (альтернатива), но оно удалило лишь небольшую их часть (несколько сотен). Затем я использовал приложения для рабочего стола Windows, такие как Wise duplicate finder, duplicate cleaner free, AllDup, Fast Duplicate finder и Anti-Twin, используя Byte by byte (60% сравнение), и ни одно из этих приложений не преуспело в поиске правильных дубликатов (опять же, мне удалось удалить лишь часть из них, на этот раз несколько тысяч).
Я прикрепил пример двух имеющихся у меня писем, хотя у них немного разный исходный код (и разные имена файлов), по сути они одинаковы — они были отправлены с одного и того же адреса электронной почты, в одно и то же время, и у них одинаковый размер файла:
Первое письмо- сообщение-1-34437.eml
Received: from e11mailgw02.isp.com ([212.200.12.195]) by mtain3.isp.com (Sun Java(tm) System Messaging Server 6.3-4.01 (built Aug 3 2007; 32bit)) with ESMTP id <[email protected]> for user@com; Tue, 02 Jun 2009 22:53:58 +0200 (CEST)
Received: from unknown (HELO vps.mafiascene.com) ([69.73.156.173]) by e11mailgw02.isp.com with ESMTP; Tue, 02 Jun 2009 22:53:57 +0200
Received: (qmail 24030 invoked by uid 48); Tue, 02 Jun 2009 16:53:51 -0400
Date: Tue, 02 Jun 2009 16:53:51 -0400
From: "Mafia Scene" <[email protected]>
Subject: Mafia Scene Registration Confirmation
To: <user@com>
X-Priority: 3
X-MSMail-Priority: Normal
Importance: Normal
Message-ID: <[email protected]>
X-IronPort-Anti-Spam-Filtered: true
X-IronPort-Anti-Spam-Result: Au0JAFEuJUpFSZyt/2dsb2JhbACOFhEBsRIRCAMEj2iCMR4IBAwEgSAF
X-IronPort-AV: E=McAfee;i="5300,2777,5634"; a="7766158"
X-MimeOLE: Produced By Microsoft MimeOLE V14.0.8089.726
Old-X-EsetId: 4FAA1F2928B4776950AC1F7F23E634
X-EsetId: 745B6128E6F033696B5D617DE9A773
X-EsetScannerBuild: 6455
Thank you for registering with Mafia Scene!
The details you registered your account with at 4:53pm EDT Tuesday - 2nd June 2009 are as follows:
Username: username
Password: password
To active your account you MUST visit the following link WITHIN the next 24 HOURS.
http://mafiascene.com/modules.php?name=users&action=activate&id=c284c0e0a7a7aec0772709511b2b8f3e
Regards,
The Mafia Scene Staff
__________ Information from ESET NOD32 Antivirus, version of virus signature database 4124 (20090602) __________
The message was checked by ESET NOD32 Antivirus.
http://www.eset.com
__________ Information from ESET NOD32 Antivirus, version of virus signature database 4801 (20100124) __________
The message was checked by ESET NOD32 Antivirus.
http://www.eset.com
Второе письмо- сообщение-1-54557.eml
Received: from e11mailgw02.com ([212.200.12.195])
by mtain3.isp.com
(Sun Java(tm) System Messaging Server 6.3-4.01 (built Aug 3 2007; 32bit))
with ESMTP id <[email protected]> for
user@com; Tue, 02 Jun 2009 22:53:58 +0200 (CEST)
Received: from unknown (HELO vps.mafiascene.com) ([69.73.156.173])
by e11mailgw02.com with ESMTP; Tue, 02 Jun 2009 22:53:57 +0200
Received: (qmail 24030 invoked by uid 48); Tue, 02 Jun 2009 16:53:51 -0400
Date: Tue, 02 Jun 2009 16:53:51 -0400
From: Mafia Scene <[email protected]>
Subject: Mafia Scene Registration Confirmation
To: user@com
Message-id: <[email protected]>
X-IronPort-Anti-Spam-Filtered: true
X-IronPort-Anti-Spam-Result:
Au0JAFEuJUpFSZyt/2dsb2JhbACOFhEBsRIRCAMEj2iCMR4IBAwEgSAF
X-IronPort-AV: E=McAfee;i="5300,2777,5634"; a="7766158"
X-EsetId: 4FAA1F2928B4776950AC1F7F23E634
Thank you for registering with Mafia Scene!
The details you registered your account with at 4:53pm EDT Tuesday - 2nd June 2009 are as follows:
Username: username
Password: password
To active your account you MUST visit the following link WITHIN the next 24 HOURS.
http://mafiascene.com/modules.php?name=users&action=activate&id=c284c0e0a7a7aec0772709511b2b8f3e
Regards,
The Mafia Scene Staff
__________ Information from ESET NOD32 Antivirus, version of virus signature database 4124 (20090602) __________
The message was checked by ESET NOD32 Antivirus.
http://www.eset.com
Есть ли способ обнаружить такие письма как дубликаты?
решение1
Заголовки совершенно разные, и их содержимое тоже разное. Эта информация не различима обычными решениями для поиска дубликатов.
Вам придется придумать что-то свое. Например, вы можете написать скрипт для извлечения информации, которая имеет для вас значение, отметить предполагаемые дубликаты и применить какой-то другой метод проверки, когда это действительно дубликат. Вероятно, это будет в какой-то степени включать ручную работу.
Более простым первым шагом может быть простое отсечение заголовков и запуск сравнения.