Was ist das für eine Zeichensatzbeschädigung? (ISO-2022?)

Question

In dieser Antwort erläutere ich ausführlich meine Vorstellungen zur Quelle dieser Dateien. Dies ist keine vollständige Antwort, da für eine detailliertere forensische Analyse praktischer Zugriff auf zumindest eine Teilmenge vollständiger Dateien erforderlich ist.

Einige Punkte, die mir in den Fragmenten, die ich gesehen habe, auffallen:

Die Wörter sind auf Tschechisch
Es gibt seltsame Sequenzen zwischen den Wörtern und sie wiederholen sich oft
Diese seltsamen Sequenzen bestehen aus UTF-8-Zeichen, die überhaupt keinen Sinn ergeben, außer dass einige von ihnen kyrillischer Natur sind.

Mein Fazit ist, dass diese Dateien ursprünglich keine Textdateien waren, sondern fälschlicherweise wie Text in UTF-8 konvertiert wurden, wobei eine Codepage verwendet wurde, die kyrillische Zeichen enthielt.

Die allgegenwärtige Folge von ist beispielsweise d193der kyrillische Buchstabekleines Gjederen unterschiedliche Codepage-Darstellungen sind:

Bild

Dadurch erhalten wir eine Liste möglicher Kodierungen der Originaldateien, die von den ursprünglichen Betriebssystemen abhängen. Wenn sie auf einem Windows-Computer erstellt wurden, war ihre ursprüngliche Codepage wahrscheinlich Windows-1251, auf einem Mac waren sie jedoch wahrscheinlich in Macintosh-Kyrillisch. Natürlich ist es auch durchaus möglich, dass bei der Übersetzung in UTF-8 die falsche Kodierung verwendet wurde.

So finden wir beispielsweise die Sequenz SPT~X83..Telecom. Das Unternehmen „SPT Telecom“ ist kein anderes als das 1993 gegründete tschechische nationale Telekommunikationsunternehmen, dessen Präsenz in einem Reuters-Newswire-Text durchaus logisch ist. Außer einem Leerzeichen zwischen den beiden Wörtern gibt es jedoch keinen Grund für ein Trennzeichen.

Meine Erklärung für diese rätselhaften Zeichenfolgen, die sich zwischen den Wörtern wiederholen, ist, dass sie nicht Teil des Textes waren und auch nicht sein konnten. Ich glaube, dass es sich dabei um Binärzeichen gehandelt haben muss, die zwischen den Wörtern platziert wurden und wahrscheinlich etwas mit der Formatierung der Dateien zu tun hatten. Das Konvertierungsprogramm, das die Dateien in UTF-8 konvertierte, konvertierte sie daher blind in UTF-8-Zeichen, die keinen Sinn ergeben.

Selbst wenn ich versuche, diese Sequenzen mit einer der Codeseiten in der obigen Liste in Binärcode umzuwandeln, erhalte ich keine sinnvollen Sequenzen. Ich habe jedoch Erfahrung mit Textdateien aus einigen alten Texteditoren, die „unsichtbare“ Zeichen in den Text eingefügt haben, deren Zweck nicht darin bestand, angezeigt zu werden, sondern die Anzeige zu steuern.

Ich glaube, das ist die Erklärung für diese Dateien, aber ich kenne dieses seltsame Dateiformat nicht. Es könnte sich um einen unbekannten tschechischen Texteditor handeln (zumindest mir unbekannt). Wenn die Dateien nach im Text enthaltenen Daten durchsucht werden können, könnte dies helfen, die Möglichkeiten einzugrenzen.

Ich glaube nicht an Ihre Theorie, dass die Originaldateien gut aufgebaut und kodiert sind inISO-2022, da diese seltsamen Sequenzen keine ISO-2022-Steuersequenzen zu sein scheinen (oder nie gewesen sind).

Answer 1