터미널에서 Cuneiform을 사용하여 이미지 기반 PDF에서 텍스트를 추출하는 방법

터미널에서 Cuneiform을 사용하여 이미지 기반 PDF에서 텍스트를 추출하는 방법

설형 문자 -l eng -f 텍스트 -o outocr.txt input.pdf

위 명령을 터미널에서 실행하면 내 PDF 제목 페이지의 텍스트만 outocr.txt 파일로 출력됩니다. 120페이지 PDF의 모든 텍스트를 인식하게 하려면 어떻게 해야 합니까? 저는 Fedora Linux 25(x86_64)를 사용하고 있습니다.

답변1

이 게시물은 여러 개별 페이지를 읽고 여러 페이지로 구성된 PDF를 만드는 예제 스크립트를 제공합니다. 설형문자 자체로는 여러 페이지로 구성된 문서를 생성하지 않습니다. Linux의 PDF에서 OCR을 사용하여 텍스트를 추출하는 방법은 무엇입니까?

관련 정보