보조 개인 사용 문자를 사용하는 PDF에서 CJK 유니코드 문자를 가져오는 방법은 무엇입니까?

보조 개인 사용 문자를 사용하는 PDF에서 CJK 유니코드 문자를 가져오는 방법은 무엇입니까?

PDF 문서가 여러 개 있습니다(예:이 하나)은 표준 중국어 표의 문자를 사용하여 작성된 것으로 보이지만 텍스트를 추출해 보니 유니코드 보충 개인 사용 영역의 문자를 사용하여 인코딩된 것으로 나타났습니다.

개인용 문자를 적절한 CJK 문자로 다시 매핑하는 신뢰할 수 있는 방법이 있습니까?

답변1

일반적인 흐름은 아마도

  • PDF에서 글꼴 추출
  • 글꼴을 알려진 다른 인코딩과 비교하여 해당 글꼴이 맞는지 확인하세요.
  • 아니면 실제로 개인적으로 사용되는 것일 수도 있습니다.
  • 인코딩이 무엇인지 알고 있는 경우 변환 테이블을 확인하여 역관계를 해결하고, 그렇지 않은 경우 PDF에서 추출된 글꼴로 작업하세요.

관련 정보