この文字セットの破損とは何ですか? (ISO-2022?)

Question

この回答では、これらのファイルのソースに関する私の考えを詳しく説明します。より詳細なフォレンジック分析には、完全なファイルの少なくとも一部のサブセットへの実際のアクセスが必要なため、これは完全な回答ではありません。

私が見た断片の中で印象に残ったいくつかの点:

言葉はチェコ語です
単語の間に奇妙な順序があり、単語が何度も繰り返される
これらの奇妙なシーケンスは、一部がキリル文字であることを除いてまったく意味をなさない UTF-8 文字で構成されています。

私の結論は、これらのファイルは元々テキストファイルではなかったが、キリル文字を含むコードページを使用して、テキストであるかのように誤って UTF-8 に変換されたというものです。

例えば、至る所で見られるのがd193キリル文字の小さなGJE異なるコードページ表現は次のとおりです。

これにより、元のファイルの可能なエンコーディングのリストが得られます。これは元のオペレーティングシステムによって異なります。Windows コンピューターで作成された場合、元のコードページはおそらく Windows-1251 ですが、Mac の場合は Macintosh キリル文字である可能性があります。もちろん、UTF-8 への変換で間違ったエンコーディングが使用された可能性もあります。

たとえば、次のシーケンスが見つかりますSPT~X83..Telecom。「SPT Telecom」は、1993 年に設立されたチェコの国営通信会社に他なりません。ロイター通信のテキストにこの会社が登場するのは当然のことです。ただし、2 つの単語の間に空白以外の区切り文字を置く必要はありません。

単語の間に繰り返される不可解な文字列に対する私の説明は、それらはテキストの一部ではなかったし、また、そうであるはずもなかったということです。それらは単語の間に置かれたバイナリ文字だったに違いないと私は信じています。これはおそらくファイルのフォーマットと何らかの関係があるのでしょう。そのため、ファイルを UTF-8 に変換する変換プログラムは、それらを意味のない UTF-8 文字に盲目的に変換しました。

上記のリストにあるコードページのいずれかを使用して、このシーケンスをバイナリに変換しようとしても、意味のあるシーケンスは得られません。ただし、表示されるのではなく表示を制御する目的でテキストに「非表示」文字を配置する古いテキストエディターから取得したテキストファイルの経験があります。

これがこれらのファイルの説明だと思いますが、この奇妙なファイル形式はわかりません。未知のチェコ語のテキストエディターだった可能性があります (少なくとも私にはわかりません)。テキストに含まれる日付をファイルでスキャンできれば、可能性を絞り込むのに役立つかもしれません。

私は、元のファイルが適切に構築され、エンコードされているというあなたの理論を信じていません。ISO-2022これらの奇妙なシーケンスは、ISO-2022 制御シーケンスではない (またはこれまでもそうであったことがない) ようです。

Answer 1