PDF에서 베트남어 문자 잘라내기 및 붙여넣기

PDF에서 베트남어 문자 잘라내기 및 붙여넣기

PDF 문서의 베트남어 텍스트를 Notepad++(또는 아무것도 작동하지 않음)에 복사/붙여넣으려고 합니다. 붙여넣은 텍스트가 원본 텍스트와 다릅니다. 이 문제를 해결하는 가장 좋은 방법은 무엇입니까?

예를 들어:

소스 텍스트: (소스 텍스트는 스크린샷 참조) 여기에 이미지 설명을 입력하세요

붙여넣은 텍스트: 파파야 샐러드 ~ GÕi ñu ñû Tôm

정말 고마워.

편집: 소스가 Word 문서인 경우 예상대로 복사하여 붙여넣는 것 같습니다. 여기서 PDF가 문제입니다.

답변1

PDF에 사용되는 인코딩이 임의적이기 때문입니다.

Acrobat 파일 속성

에서베트남어로 된 일부 PDF 인터튜브에서 찾았어요

"인코딩:사용자 정의"는 아마도 이 PDF를 생성한 프로그램에서 자체 편의를 위해 만들어진 (임의로 보이는) 인코딩을 의미할 것입니다.

"내장된 하위 집합"는 프로그램이 이 글꼴에서 많은 수의 문자를 필요로 하지 않았기 때문에 필요한 몇 개만 선택하고 겉보기에 무작위 순서(아마도 프로그램이 텍스트에서 만난 순서일 수 있음)로 정렬했으며 새로 발명된 인코딩은 기반을 기반으로 함을 의미합니다. 이 주문에.

실제로는 "캐릭터"가 아닙니다. 기본적으로 PDF에는 "어떤 문자"가 있는지에 대한 보편적으로 의미 있는 정보가 더 이상 없습니다. 단지 색인화된 모양 묶음과 색인화된 모양을 표시하는 위치 및 크기 목록이 있을 뿐입니다.


위키피디아는 말한다

CID 키 글꼴은 Identity-H(가로 쓰기) 또는 Identity-V(세로 쓰기)와 같은 "ID" 인코딩을 사용하여 문자 컬렉션을 참조하지 않고 만들 수 있습니다. 이러한 글꼴에는 각각 고유한 문자 집합이 있을 수 있으며, 이러한 경우 문자 모양의 CID 번호는 정보를 제공하지 않습니다. 일반적으로 유니코드 인코딩이 대신 사용되며 잠재적으로 보충 정보와 함께 사용됩니다.

따라서 UTF-16 BE 인코딩에 적합한지 확인하려고 할 수 있습니다.

답변2

나에게 맞는 솔루션을 찾았지만 이유를 설명할 수는 없습니다. Acrobat에서 PDF를 열었을 때 베트남어 문자를 복사하여 붙여넣을 수 없습니다. 하지만 Mac에서 Preview App 버전(버전 5.5.3(719.31))에서 PDF를 열면 문제 없이 복사하여 붙여넣을 수 있었습니다.

관련 정보