이 문자 집합 손상은 무엇입니까? (ISO-2022?)

Question

이 답변에서는 이러한 파일의 소스에 대한 내 생각을 자세히 설명합니다. 더 자세한 포렌식 분석을 위해서는 적어도 전체 파일의 일부 하위 집합에 대한 직접 액세스가 필요하기 때문에 이것은 완전한 대답은 아닙니다.

내가 본 단편에서 나를 놀라게 하는 몇 가지 사항은 다음과 같습니다.

단어는 체코어로 되어 있습니다.
단어를 구분하는 이상한 순서가 있고 많이 반복됩니다.
이러한 이상한 시퀀스는 UTF-8 문자로 구성되어 있으며 그 중 일부는 본질적으로 키릴 문자라는 점을 제외하면 전혀 의미가 없습니다.

내 결론은 이 파일이 원래 텍스트 파일이 아니었지만 키릴 문자가 포함된 코드 페이지를 사용하여 마치 텍스트인 것처럼 UTF-8로 잘못 변환되었다는 것입니다.

예를 들어, 의 편재적 순서는 d193키릴 문자입니다.작은 gje다른 코드 페이지 표현은 다음과 같습니다.

이를 통해 원본 운영 체제에 따라 원본 파일의 가능한 인코딩 목록이 제공됩니다. Windows 컴퓨터에서 생성된 경우 원래 코드 페이지는 아마도 Windows-1251이었을 것입니다. 그러나 Mac에서는 아마도 Macintosh Cyrillic이었을 것입니다. 물론 UTF-8로의 변환이 잘못된 인코딩을 사용했을 수도 있습니다.

예를 들어 시퀀스를 찾습니다 SPT~X83..Telecom. "SPT Telecom"이라는 회사는 1993년에 설립된 체코 국영 통신 회사입니다. 이 회사가 Reuters 뉴스에 등장하는 것은 매우 논리적입니다. 그러나 두 단어 사이의 공백 옆에 구분 기호가 있을 이유가 없습니다.

단어들 사이에서 반복되는 이 수수께끼 같은 문자열에 대한 나의 설명은 그것이 텍스트의 일부가 아니었고, 될 수도 없다는 것입니다. 나는 그 단어가 단어 사이에 배치된 이진 문자였음에 틀림없다고 생각하며, 이는 아마도 파일 형식과 관련이 있을 것입니다. 따라서 파일을 UTF-8로 변환한 변환 프로그램은 파일을 무의미한 UTF-8 문자로 맹목적으로 변환했습니다.

위 목록의 코드 페이지를 사용하여 이 시퀀스를 바이너리로 변환하려고 시도하더라도 의미 있는 시퀀스를 얻지 못합니다. 그러나 나는 표시할 목적이 아니라 표시를 제어하기 위한 목적으로 텍스트에 "보이지 않는" 문자를 배치한 일부 오래된 텍스트 편집기에서 가져온 텍스트 파일에 대한 경험이 있습니다.

나는 이것이 이 파일들에 대한 설명이라고 생각하지만, 나는 이 이상한 파일 형식을 모른다. 그것은 알려지지 않은 체코어 텍스트 편집기일 수도 있습니다(적어도 나에게는 알려지지 않았습니다). 파일에서 텍스트에 포함된 날짜를 검색할 수 있으면 가능성을 좁히는 데 도움이 될 수 있습니다.

나는 원본 파일이 잘 구성되고 인코딩되어 있다는 당신의 이론을 믿지 않습니다.ISO-2022, 이러한 이상한 시퀀스는 ISO-2022 제어 시퀀스가 아닌 것 같기 때문입니다.

Answer 1

이 답변에서는 이러한 파일의 소스에 대한 내 생각을 자세히 설명합니다. 더 자세한 포렌식 분석을 위해서는 적어도 전체 파일의 일부 하위 집합에 대한 직접 액세스가 필요하기 때문에 이것은 완전한 대답은 아닙니다.

내가 본 단편에서 나를 놀라게 하는 몇 가지 사항은 다음과 같습니다.

단어는 체코어로 되어 있습니다.
단어를 구분하는 이상한 순서가 있고 많이 반복됩니다.
이러한 이상한 시퀀스는 UTF-8 문자로 구성되어 있으며 그 중 일부는 본질적으로 키릴 문자라는 점을 제외하면 전혀 의미가 없습니다.