PDF 콘텐츠를 보거나 읽을 수 있지만 텍스트를 추출할 수는 없습니다.

PDF 콘텐츠를 보거나 읽을 수 있지만 텍스트를 추출할 수는 없습니다.

보기, 인쇄, 수정이 가능한 PDF 파일을 다운로드했는데... 간단한 텍스트 복사는 할 수 없습니다. 간단한 검색으로는 이것이 어떻게 달성되었는지 찾을 수 없었습니다. macOS 미리보기 앱과 Chrome의 PDF 뷰어를 사용해 보았습니다. 내가 얻은 미리보기 앱 ?과 크롬에서는 빈 공간이 나타납니다.

아래 이미지에서 8을 볼 수 있지만 복사하려고 하면 빈 공간이 생기거나 ?macOS에서 해당 인코딩을 읽을 수 없다고 말하는 것 같습니다.

여기에 이미지 설명을 입력하세요

답변1

이는 .jpg에서 PDF를 만들 때 나타나는 제한 사항(부작용)입니다.

OCR 소프트웨어로 텍스트를 추출하는 것 외에는 이 문제를 해결할 수 있는 방법이 없습니다. PDF에서 직접 작동하지 않으면 .jpg로 인쇄하여 사용하세요.

답변2

이 도구를 사용하여 PDF를 텍스트로 변환할 수 있습니다.pdf2text-ocr

그런 다음 복사, 검색 등을 할 수 있습니다. 파일은 다음을 사용하여 브라우저에서 로컬로 변환됩니다.OCR외부 서버에 업로드되지 않습니다. 무료이며 오픈 소스입니다.

폭로:저는 pdf2text-ocr의 저자입니다. 직장에서 같은 문제를 겪고 있는 친구를 돕기 위해 만들었습니다.

관련 정보