
我在終端機上使用以下命令將 PDF 轉換為 TIF 文件
convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif
convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif
然後我嘗試運行makebox
命令,
tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox
這產生了以下錯誤:
Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.
libtiff
假設它與, ran 命令相關tesseract -v
,並發現(或猜測)它丟失了
tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5
即使我卸載並重新安裝 lib tiff,它也會產生相同的結果。不知道我在這裡缺少什麼。請指教!
brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff
命令的輸出brew info leptonica
編輯#1
GhostScript
當我嘗試運行命令時,使用它生成了這個 tiff 文件,它會返回相同的錯誤makebox
。也許我還缺其他東西?我設定了50+的字體大小,可以嗎?
https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip(~4 MB)
編輯#2
我使用創建了一頁 tif GhostScript
,即使它不起作用?
https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip(~60 KB)
答案1
我猜你正在關注邁克爾·利斯納的帖子在 Tesseract 中新增自訂字體。
我嘗試了同樣的事情(convert
命令),但得到了一個損壞的 TIFF,無法用任何應用程式打開。
所以我選擇了 GUI 替代方案。我在 Scribus 中編寫文字(因為它允許我增加字元之間的間距),然後直接從文件-出口-另存為影像菜單。我選擇了 300 DPI 解析度。
您還可以嘗試什麼:
- GIMP 開啟可另存為 TIFF 的 PDF
- Ghostscript:(
gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>
如果是這種情況,它會轉換所有頁面)
您還可能遇到哪些其他問題:
- Linux:如果你安裝了 Tesseract 的 repo 版本(至少在 Ubuntu 中),你將沒有所需的可執行檔:
unicharset_extractor
並且mftraining
(或者它們不在路徑中,因為套件應該包括他們)。