PDF 문서가 여러 개 있습니다(예:이 하나)은 표준 중국어 표의 문자를 사용하여 작성된 것으로 보이지만 텍스트를 추출해 보니 유니코드 보충 개인 사용 영역의 문자를 사용하여 인코딩된 것으로 나타났습니다.
개인용 문자를 적절한 CJK 문자로 다시 매핑하는 신뢰할 수 있는 방법이 있습니까?
답변1
일반적인 흐름은 아마도
- PDF에서 글꼴 추출
- 글꼴을 알려진 다른 인코딩과 비교하여 해당 글꼴이 맞는지 확인하세요.
- 아니면 실제로 개인적으로 사용되는 것일 수도 있습니다.
- 인코딩이 무엇인지 알고 있는 경우 변환 테이블을 확인하여 역관계를 해결하고, 그렇지 않은 경우 PDF에서 추출된 글꼴로 작업하세요.