PDF에서 텍스트를 복사하려고 하는데 쓰레기가 나옵니다.

PDF에서 텍스트를 복사하려고 하는데 쓰레기가 나옵니다.

텍스트를 복사하려고 합니다.PDF 파일에서, 하지만 쓰레기가 나옵니다. 문서를 읽으려면 Ubuntu에서 Document Reader를 사용하고 있습니다. 복사를 허용하지 않는 것은 아니지만 복사된 텍스트는 다음과 같습니다.

RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS    

5XQDVURRW

LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!

$53+HDGHUDVVXPLQJ(WKHUQHW,3Y

GH¿QH$53B5(48(67
$535HTXHVW

GH¿QH$53B5(3/<
$535HSO\

W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH

XBLQWBWSW\SH
3URWRFRO7\SH

XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK

XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK

XBLQWBWRSHU
2SHUDWLRQ&RGH

XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV

XBFKDUVSD>@
6HQGHU,3DGGUHVV

XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV

XBFKDUWSD>@
7DUJHW,3DGGUHVV

이 문제를 해결하려면 어떻게 해야 합니까? 데이터 양이 많아 입력하는 데 시간이 정말 오래 걸립니다.

또한 붙여넣은 텍스트는 gedit(Ubuntu)에서 다음과 같습니다.

내 시스템에서 (이 질문에 여기에 붙여 넣으면 다르게 보입니다!)

인코딩 문제인 것 같은데 해결 방법을 모르겠습니다.

답변1

기본 텍스트가 깨졌습니다. @skub는 의도한 것일 수도 있다고 생각하는 것이 맞다고 생각합니다. 텍스트를 얻는 한 가지 방법은 각 페이지를 이미지로 내보내는 것입니다(예:.jpg또는.png) 그런 다음 다음을 사용하여 이미지를 스캔합니다.OCR소프트웨어. Adobe Acrobat X를 사용하여 Windows 7에서 이를 테스트할 수 있었습니다. 그것은 효과가 있었다.

업데이트:

문서 뷰어에 유사한 기능이 있는 경우 copy with formatting텍스트를 예상대로 복사합니다. 더 자세히 살펴보면 내장된 글꼴이 있음을 확인할 수 있습니다.모두가지고있다맞춤 인코딩.

관련 정보