
Tenho uma pasta cheia de e-mails salvos de uma conta IMAP que dissolvi.
O nome do arquivo é a linha de assunto de cada e-mail.
Agora, infelizmente, quando uma codificação não-ASCII é usada, a linha de assunto terá a aparência interna - eles serão prefixados =_
e a codificação usada:
=_UTF-8_Q_Auftragsbest=C3=A4tigung_(Kundennummer__)_=_20100819_150312_37.eml
=_windows-1252_Q_Best=E4tigung=3A_Wir_haben_Ihre_=_20100819_150310_28.eml
Alguém conhece uma ferramenta que possa ser usada para corrigir isso em massa no nível do sistema de arquivos?
Uma solução teria que 1. remover o =_ENCODING
prefixo e 2. se possível, converter os caracteres codificados no nome do arquivo em seus tremas equivalentes no sistema de arquivos.
Estou no Windows 7 ou XP, mas estaria pronto para levar isso para uma VM Linux porque é umgrandepasta e uma solução automatizada seriaótimo.
Responder1
Eu construí um script PHP para mim. Pensei em compartilhá-lo caso alguém tenha um problema semelhante. Funciona para mim e para as codificações que eu precisava (talvez seja necessário estender a matriz de codificações).
O script converte arquivo codificado MIMEnomesrecursivamente em toda a estrutura de diretórios especificada em UTF-8.
Não produz resultados totalmente perfeitos: existem vários caracteres especiais que são duplamente convertidos ou não são convertidos. Pelo que posso ver, isso é culpa do exportador IMAP ou das informações de codificação incorretas dentro do próprio e-mail.
mb_decode_mimeheader()
é o coração de tudo.
Lançado ao domínio público; nenhuma garantia. PHP 5.2 é necessário.
Deve ser executado tanto na CLI quanto na web; Eu testei no navegador.
Faça backups antes de executar scripts como este nos seus dados.
<?php
/* Directory to parse */
$dir = "D:/IMAP";
/* Extensions to parse. Leave empty for none */
$extensions = array("eml");
/* Set to true to actually run the renaming */
define ("GO", true);
/* No need to change past this point */
/* Output content type header if not in CLI */
if (strtolower(php_sapi_name()) != "CLI")
header("Content-type: text/plain; charset=utf-8");
$FixNames = new FixEmlNames($dir, $extensions);
$FixNames->fixAll();
class FixEmlNames
{
/* List of possible encodings here */
private $encodings = array("iso-8859-1", "iso-8859-15", "windows-1252", "utf-8");
/* Encoding Prefix. The exporter exports e.g. =_iso-8859-1_ with underscores
instead of question marks */
private $encoding_prefix = "=_";
/* Encoding postfix */
private $encoding_postfix = "_";
/* Temporary storage for files */
private $files;
/* Array of file extensions to process. Leave empty to parse all files and directories */
private $extensions = array();
/* Count of renamed files */
private $count = 0;
/* Count of failed renames */
private $failed = 0;
/* Count of skipped renames */
private $skipped = 0;
/* Transform forbidden characters in host OS */
private $transform_characters = array(":" => "_", "?" => "_", ">" => "_");
function __construct($dir, $extensions = array("eml"))
{
$this->files = new RecursiveIteratorIterator(new RecursiveDirectoryIterator($dir));
$this->extensions = $extensions;
}
function fixAll()
{
echo "Starting....\n";
while($this->files->valid())
{
if (!$this->files->isDot())
{
$path = $this->files->key();
$ext = pathinfo($path, PATHINFO_EXTENSION);
if ((count($this->extensions) == 0 ) or (in_array($ext, $this->extensions)))
$this->renameOne($path);
}
$this->files->next();
}
echo "Done. ";
/* Show stats */
$status = array();
if ($this->count > 0) $status[] = $this->count." OK";
if ($this->failed > 0) $status[] = $this->failed." failed";
if ($this->skipped > 0) $status[] = $this->skipped." skipped";
echo implode(", ", $status);
}
function renameOne($fullPath)
{
$filename = pathinfo($fullPath, PATHINFO_BASENAME);
$is_mime = false;
// See whether file name is MIME encoded or not
foreach ($this->encodings as $encoding)
{ if (stristr($filename, $this->encoding_prefix.$encoding.$this->encoding_postfix))
$is_mime = true;
}
// No MIME encoding? Skip.
if (!$is_mime)
{
# uncomment to see skipped files
# echo "Skipped: $filename\n";
$this->skipped++;
return true;
}
mb_internal_encoding("UTF-8");
$filename = str_replace("_", "?", $filename); // Question marks were converted to underscores
$filename = mb_decode_mimeheader($filename);
$filename = str_replace("?", "_", $filename);
// Remove forbidden characters
$filename = strtr($filename, $this->transform_characters);
// Rename
if (constant("GO") == true)
{
// We catch the error manually
$old = error_reporting(0);
$success = rename($fullPath, realpath(dirname($fullPath)).DIRECTORY_SEPARATOR.$filename);
error_reporting($old);
if ($success)
{
echo "OK: $filename\n";
$this->count++;
return true;
}
else
{
$error = error_get_last();
$message = $error["message"];
$this->failed++;
echo "Failed renaming $fullPath. Error message: ".$message."\n";
return false;
}
}
else
{
$this->count++;
echo "Simulation: $filename\n";
return true;
}
}
}
Responder2
Como você deseja migrar para o Linux, você pode instalar um servidor php nele e criar um script bastante fácil para recodificar os arquivos. O grau de dificuldade depende se você já fez alguma programação. Você pode fazer referência a essas funções emphp.net
Estas são as funções que você precisa
<?php
opendir ( string $path [, resource $context ] )
readdir ([ resource $dir_handle ] )
file_get_contents(ENTER THE FILE NAMES HERE WITH A VARIABLE PASSED FROM readdir)
preg_replace(REGULAR EXPRESSION TO REMOVE THE =ENCODING part of the filename)
string mb_convert_encoding ( string $str , string $to_encoding [, mixed $from_encoding ] )
file_put_contents(THE NEW FILE NAME.eml)
?>