터미널에서 다음 명령을 사용하여 PDF를 TIF 파일로 변환했습니다.
convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif
convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif
그런 다음 명령을 실행하려고 시도했습니다 makebox
.
tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox
다음 오류가 발생했습니다.
Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.
libtiff
그리고 그것이 , run 명령 과 관련된 것이라고 가정 tesseract -v
하고 그것이 누락된 것을 발견(또는 추측)했습니다.
tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5
lib tiff를 제거했다가 다시 설치해도 동일한 결과가 나타납니다. 내가 여기서 무엇을 놓치고 있는지 잘 모르겠습니다. 조언을 부탁드립니다!
brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff
명령 출력brew info leptonica
편집 #1
GhostScript
명령을 실행하려고 할 때 동일한 오류를 반환하는 이 tiff 파일을 생성했습니다 makebox
. 어쩌면 내가 놓친 다른 것이 있을까요? 글꼴 크기를 50 이상으로 설정했는데 괜찮나요?
https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip(~4MB)
편집 #2
를 사용하여 한 페이지의 tif를 만들었는데 GhostScript
작동하지 않나요??
https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip(~60KB)
답변1
따라하고 있는 것 같아요마이클 리스너의 포스트Tesseract에 사용자 정의 글꼴을 추가합니다.
나는 동일한 명령( convert
명령)을 시도했지만 어떤 응용 프로그램에서도 열 수 없는 손상된 TIFF를 얻었습니다.
그래서 저는 GUI 대안을 선택했습니다. 나는 Scribus에서 텍스트를 작성한 다음(문자 사이의 간격을 늘릴 수 있었기 때문에) 다음에서 TIFF로 직접 내보냈습니다.파일-내보내다-이미지로 저장메뉴. 저는 300DPI 해상도를 선택했습니다.
그 밖에 무엇을 시도해 볼 수 있나요?
- 김프는 TIFF로 저장할 수 있는 PDF를 엽니다.
- Ghostscript:
gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>
(이 경우 모든 페이지를 변환합니다)
발생할 수 있는 다른 문제:
- Linux: Tesseract의 저장소 버전을 설치한 경우(적어도 Ubuntu에서는) 필수 실행 파일이 없습니다.
unicharset_extractor
또는mftraining
패키지가 있어야 하기 때문에 경로에 없습니다.그들을 포함).