Что это за повреждение набора символов? (ISO-2022?)

Question

В этом ответе я подробно излагаю свои идеи относительно источника этих файлов. Это не полный ответ, поскольку более подробный криминалистический анализ требует практического доступа хотя бы к некоторому подмножеству полных файлов.

Некоторые моменты, которые поразили меня в увиденных мною фрагментах:

Слова на чешском языке.
Между словами существуют странные последовательности, и они часто повторяются.
Эти странные последовательности состоят из символов UTF-8, которые не имеют никакого смысла, за исключением того, что некоторые из них по своей природе являются кириллическими.

Я пришел к выводу, что изначально эти файлы не были текстовыми, а были ошибочно преобразованы в UTF-8, как если бы они были текстом, с использованием кодовой страницы, содержащей кириллические символы.

Например, вездесущая последовательность d193— это кириллическая буквамаленький гжечьи различные представления кодовой страницы следующие:

Это дает нам список возможных кодировок исходных файлов, которые зависят от исходных операционных систем. Если они были созданы на компьютере с Windows, их исходная кодовая страница, вероятно, была Windows-1251, но на Mac они, вероятно, были в Macintosh Cyrillic. Конечно, также вполне возможно, что перевод в UTF-8 использовал неправильную кодировку.

Например, мы находим последовательность SPT~X83..Telecom. Компания "SPT Telecom" - это не что иное, как чешская национальная телекоммуникационная компания, основанная в 1993 году, присутствие которой в тексте новостной ленты Reuters вполне логично. Однако нет никаких причин для какого-либо разделителя рядом с пробелом между двумя словами.

Мое объяснение этим загадочным строкам, которые повторяются среди слов, заключается в том, что они не были и не могли быть частью текста. Я считаю, что они, должно быть, были двоичными символами, помещенными между словами, которые, вероятно, имели некоторую связь с форматированием файлов. Поэтому программа конвертации, которая преобразовала файлы в UTF-8, слепо преобразовала их в символы UTF-8, которые не имеют смысла.

Даже пытаясь преобразовать эти последовательности в двоичный код, используя любую из кодовых страниц в списке выше, я не получаю никаких осмысленных последовательностей. Однако у меня есть опыт работы с текстовыми файлами, полученными из некоторых старых текстовых редакторов, которые помещали в текст «невидимые» символы, целью которых было не отображение, а управление отображением.

Я считаю, что это объяснение этих файлов, но я не знаю этот странный формат файла. Это мог быть какой-то неизвестный чешский текстовый редактор (по крайней мере, неизвестный мне). Если файлы можно будет просканировать на предмет дат, содержащихся в тексте, это может помочь сузить круг возможностей.

Я не верю в вашу теорию о том, что исходные файлы хорошо сконструированы и закодированы вИСО-2022, поскольку эти странные последовательности, похоже, не являются (и никогда не являлись) управляющими последовательностями ISO-2022.

Answer 1

В этом ответе я подробно излагаю свои идеи относительно источника этих файлов. Это не полный ответ, поскольку более подробный криминалистический анализ требует практического доступа хотя бы к некоторому подмножеству полных файлов.

Некоторые моменты, которые поразили меня в увиденных мною фрагментах:

Слова на чешском языке.
Между словами существуют странные последовательности, и они часто повторяются.
Эти странные последовательности состоят из символов UTF-8, которые не имеют никакого смысла, за исключением того, что некоторые из них по своей природе являются кириллическими.