유니코드의 최신 TeXes 처리

유니코드의 최신 TeXes 처리

제가 잘못 알고 있을 수도 있지만 대략적으로는 다음과 같습니다.

  1. PDF가 원칙적으로 8비트 인코딩 벡터만 사용할 수 있다는 것이 여전히 사실입니까?
  2. 그렇지 않다면 LuaTeX/XeTeX는 더 큰 문자 세트를 어떻게 처리합니까?

답변1

이것은 단순히 Stack Overflow에 게시된 답변의 복사본입니다.플린트는 다음과 같이 쓴다:

3장의 PDF 참조에서 유니코드에 대해 다음과 같이 말합니다.

텍스트 문자열은 PDFDocEncoding 또는 유니코드 문자 인코딩으로 인코딩됩니다. PDFDocEncoding은 ISO Latin 1 인코딩의 상위 집합이며 부록 D에 문서화되어 있습니다. 유니코드는 유니코드 컨소시엄(참고문헌 참조)의 유니코드 표준에 설명되어 있습니다. 유니코드로 인코딩된 텍스트 문자열의 경우 처음 2바이트는 254이고 그 다음은 255여야 합니다. 이 2바이트는 문자열이 UTF-16BE(빅 엔디안) 인코딩 체계로 인코딩되었음을 나타내는 유니코드 바이트 순서 표시자 U+FEFF를 나타냅니다. 유니코드 표준에 명시되어 있습니다. (이 메커니즘은 thorn ydieresis라는 두 문자를 사용하여 PDFDocEncoding을 사용하여 문자열을 시작하는 것을 방지합니다. 이는 단어나 구문의 의미 있는 시작이 아닐 가능성이 높습니다.

따라서 질문 1에 대한 대답은 그것이 한때는 사실이었더라도 지금은 사실이 아니라는 것입니다. 따라서 질문 2는 요점을 벗어난 것입니다(북미 독자에게는 '논의').

관련 정보