
텍스트를 복사하려고 합니다.PDF 파일에서, 하지만 쓰레기가 나옵니다. 문서를 읽으려면 Ubuntu에서 Document Reader를 사용하고 있습니다. 복사를 허용하지 않는 것은 아니지만 복사된 텍스트는 다음과 같습니다.
RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS
5XQDVURRW
LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!
$53+HDGHUDVVXPLQJ(WKHUQHW,3Y
GH¿QH$53B5(48(67
$535HTXHVW
GH¿QH$53B5(3/<
$535HSO\
W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH
XBLQWBWSW\SH
3URWRFRO7\SH
XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK
XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK
XBLQWBWRSHU
2SHUDWLRQ&RGH
XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV
XBFKDUVSD>@
6HQGHU,3DGGUHVV
XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV
XBFKDUWSD>@
7DUJHW,3DGGUHVV
이 문제를 해결하려면 어떻게 해야 합니까? 데이터 양이 많아 입력하는 데 시간이 정말 오래 걸립니다.
또한 붙여넣은 텍스트는 gedit(Ubuntu)에서 다음과 같습니다.
(이 질문에 여기에 붙여 넣으면 다르게 보입니다!)
인코딩 문제인 것 같은데 해결 방법을 모르겠습니다.
답변1
기본 텍스트가 깨졌습니다. @skub는 의도한 것일 수도 있다고 생각하는 것이 맞다고 생각합니다. 텍스트를 얻는 한 가지 방법은 각 페이지를 이미지로 내보내는 것입니다(예:.jpg또는.png) 그런 다음 다음을 사용하여 이미지를 스캔합니다.OCR소프트웨어. Adobe Acrobat X를 사용하여 Windows 7에서 이를 테스트할 수 있었습니다. 그것은 효과가 있었다.
업데이트:
문서 뷰어에 유사한 기능이 있는 경우 copy with formatting
텍스트를 예상대로 복사합니다. 더 자세히 살펴보면 내장된 글꼴이 있음을 확인할 수 있습니다.모두가지고있다맞춤 인코딩.