Tesseract OCR : 지원되지 않는 이미지 유형

Tesseract OCR : 지원되지 않는 이미지 유형

터미널에서 다음 명령을 사용하여 PDF를 TIF 파일로 변환했습니다.

convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif

convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif

그런 다음 명령을 실행하려고 시도했습니다 makebox.

tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox

다음 오류가 발생했습니다.

Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.

libtiff그리고 그것이 , run 명령 과 관련된 것이라고 가정 tesseract -v하고 그것이 누락된 것을 발견(또는 추측)했습니다.

tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5

lib tiff를 제거했다가 다시 설치해도 동일한 결과가 나타납니다. 내가 여기서 무엇을 놓치고 있는지 잘 모르겠습니다. 조언을 부탁드립니다!

brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff

명령 출력brew info leptonica 여기

편집 #1

GhostScript명령을 실행하려고 할 때 동일한 오류를 반환하는 이 tiff 파일을 생성했습니다 makebox. 어쩌면 내가 놓친 다른 것이 있을까요? 글꼴 크기를 50 이상으로 설정했는데 괜찮나요?

https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip(~4MB)

편집 #2

를 사용하여 한 페이지의 tif를 만들었는데 GhostScript작동하지 않나요??

https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip(~60KB)

답변1

따라하고 있는 것 같아요마이클 리스너의 포스트Tesseract에 사용자 정의 글꼴을 추가합니다.

나는 동일한 명령( convert명령)을 시도했지만 어떤 응용 프로그램에서도 열 수 없는 손상된 TIFF를 얻었습니다.

그래서 저는 GUI 대안을 선택했습니다. 나는 Scribus에서 텍스트를 작성한 다음(문자 사이의 간격을 늘릴 수 있었기 때문에) 다음에서 TIFF로 직접 내보냈습니다.파일-내보내다-이미지로 저장메뉴. 저는 300DPI 해상도를 선택했습니다.

그 밖에 무엇을 시도해 볼 수 있나요?

  • 김프는 TIFF로 저장할 수 있는 PDF를 엽니다.
  • Ghostscript: gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>(이 경우 모든 페이지를 변환합니다)

발생할 수 있는 다른 문제:

  • Linux: Tesseract의 저장소 버전을 설치한 경우(적어도 Ubuntu에서는) 필수 실행 파일이 없습니다. unicharset_extractor또는 mftraining패키지가 있어야 하기 때문에 경로에 없습니다.그들을 포함).

관련 정보