這是什麼字符集損壞？（ISO-2022？）

Question

在這個答案中，我詳細介紹了我對這些文件來源的想法。這不是一個完整的答案，因為更詳細的取證分析需要親自訪問至少完整文件的某些子集。

在我看到的片段中，有一些讓我印象深刻的點：

我的結論是，這些文件最初不是文字文件，而是使用包含西里爾字元的代碼頁將其錯誤地轉換為 UTF-8，就好像它們是文字一樣。

例如，無所不在的序列d193是西里爾字母小吉傑其不同的代碼頁表示是：

這為我們提供了原始文件的可能編碼列表，這些編碼取決於原始作業系統。如果它們是在 Windows 電腦上建立的，則它們的原始程式碼頁可能是 Windows-1251，但在 Mac 上它們可能是 Macintosh Cyrillic。當然，UTF-8 的翻譯也完全有可能使用了錯誤的編碼。

例如，我們找到序列SPT~X83..Telecom。「SPT Telecom」公司正是成立於 1993 年的捷克國家電信公司，它出現在路透社新聞專線文本中是很合乎邏輯的。但是，除了兩個單字之間的空格之外，沒有任何分隔符號。

我對這些在單字中重複出現的令人費解的字串的解釋是，它們不是也不可能是文字的一部分。我相信它們一定是放置在單字之間的二進位字符，這可能與文件的格式有某種聯繫。因此，將檔案轉換為 UTF-8 的轉換程式會盲目地將它們轉換為毫無意義的 UTF-8 字元。

即使嘗試使用上面列表中的任何代碼頁將此序列轉換為二進制，我也沒有得到任何有意義的序列。但是，我對來自一些舊文本編輯器的文本文件有經驗，這些文本編輯器在文本中放置“不可見”字符，其目的永遠不會顯示，而是控制顯示。

我相信這是對這些文件的解釋，但我不知道這種奇怪的文件格式。它可能是一些未知的捷克文字編輯器（至少我不知道）。如果可以掃描文件以查找文字中包含的日期，這可能有助於縮小可能性。

我不相信您關於原始文件結構良好並編碼的理論ISO-2022，因為這些奇怪的序列似乎不是（或曾經是）ISO-2022 控制序列。

Answer 1