O que é essa corrupção do conjunto de caracteres? (ISO-2022?)

Question

Nesta resposta detalho minhas idéias sobre a origem desses arquivos. Esta não é uma resposta completa, uma vez que uma análise forense mais detalhada requer acesso prático a pelo menos algum subconjunto de arquivos completos.

Alguns pontos que me chamam a atenção nos fragmentos que vi:

As palavras estão em tcheco
Existem sequências estranhas separando as palavras e elas se repetem muito
Essas sequências estranhas são compostas de caracteres UTF-8 que não fazem nenhum sentido, exceto que alguns deles são de natureza cirílica.

Minha conclusão é que esses arquivos não eram originalmente arquivos de texto, mas foram erroneamente convertidos para UTF-8 como se fossem texto, usando uma página de código que continha caracteres cirílicos.

Por exemplo, a sequência onipresente de d193é a letra cirílicapequeno gjecujas diferentes representações de página de código são:

imagem

Isso nos dá uma lista de possíveis codificações dos arquivos originais, que dependem dos sistemas operacionais originais. Se eles foram criados em um computador Windows, sua página de código original provavelmente era Windows-1251, mas em um Mac eles provavelmente estavam em cirílico Macintosh. Claro, também é perfeitamente possível que a tradução para UTF-8 tenha usado a codificação errada.

Por exemplo, encontramos a sequência SPT~X83..Telecom. A empresa "SPT Telecom" nada mais é do que a empresa nacional checa de telecomunicações, fundada em 1993, cuja presença num texto noticioso da Reuters é bastante lógica. No entanto, não há razão para qualquer separador além de um espaço em branco entre as duas palavras.

Minha explicação para essas sequências intrigantes que se repetem entre as palavras é que elas não faziam, e não poderiam fazer, parte do texto. Acredito que devem ter sido então caracteres binários colocados entre as palavras, o que provavelmente tinha alguma ligação com a formatação dos arquivos. O programa de conversão que converteu os arquivos para UTF-8 os converteu cegamente para caracteres UTF-8 que não fazem sentido.

Mesmo tentando converter essas sequências em binário, usando qualquer uma das páginas de código da lista acima, não obtenho nenhuma sequência significativa. Porém, tenho experiência com arquivos de texto provenientes de alguns editores de texto antigos que colocavam caracteres "invisíveis" no texto cujo objetivo nunca foi ser exibido, mas sim controlar a exibição.

Acredito que esta seja a explicação para esses arquivos, mas não conheço esse estranho formato de arquivo. Poderia ter sido algum editor de texto tcheco desconhecido (pelo menos desconhecido para mim). Se os arquivos puderem ser verificados em busca de datas contidas no texto, isso poderá ajudar a restringir as possibilidades.

Não acredito na sua teoria de que os arquivos originais sejam bem construídos e codificados emISO-2022, uma vez que essas sequências estranhas não parecem ser (ou nunca foram) sequências de controle ISO-2022.

Answer 1