PDF의 OCR 및 레이어 텍스트

PDF의 OCR 및 레이어 텍스트

PDF를 OCR하여 검색 가능하게 만들고 싶습니다.

스캐너를 사용하여 만든 PDF 문서가 있거나 이미지 데이터로 구성되어 있지만 텍스트 데이터가 없다고 가정해 보겠습니다. 이러한 PDF는 PDF 리더나 데스크톱 검색 응용 프로그램으로 검색할 수 없습니다. pdfocr은 PDF 파일을 가져와서 텍스트 레이어가 추가된 새 파일을 생성하는 간단한 유틸리티입니다. 따라서 PDF 리더로 검색할 수 있고 데스크톱 검색 응용 프로그램으로 색인화할 수 있지만 인쇄할 때는 여전히 동일합니다.

에서방법: pdfocr을 사용하여 스캔한 PDF를 검색 가능하게(OCR) 만들기

현재 FreeOCR과 같은 Windows 소프트웨어는 PDF에서 TXT 파일만 생성하지만 저는 원본 PDF만 원합니다.검색 가능.

답변1

Adobe Acrobat에는 귀하가 참조하는 기능이 있습니다. Acrobat 10/11에서 이 기능은 도구의 "텍스트 인식" 섹션에 있습니다(참조:공식 문서). 이전 버전에서도 동일한 기능을 사용할 수 있었지만 약간 다르게 액세스했습니다(참조:어도비의 블로그).

일부 또는 모든 페이지에 대해 개별적으로 OCR을 수행할 수 있으며 OCR을 적용한 후 PDF는 동일하게 표시됩니다(단, 검색 가능).

관련 정보