Tesseract OCR:不支援的影像類型

Tesseract OCR:不支援的影像類型

我在終端機上使用以下命令將 PDF 轉換為 TIF 文件

convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif

convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif

然後我嘗試運行makebox命令,

tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox

這產生了以下錯誤:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.

libtiff假設它與, ran 命令相關tesseract -v,並發現(或猜測)它丟失了

tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5

即使我卸載並重新安裝 lib tiff,它也會產生相同的結果。不知道我在這裡缺少什麼。請指教!

brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff

命令的輸出brew info leptonica 這裡

編輯#1

GhostScript當我嘗試運行命令時,使用它生成了這個 tiff 文件,它會返回相同的錯誤makebox。也許我還缺其他東西?我設定了50+的字體大小,可以嗎?

https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip(~4 MB)

編輯#2

我使用創建了一頁 tif GhostScript,即使它不起作用?

https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip(~60 KB)

答案1

我猜你正在關注邁克爾·利斯納的帖子在 Tesseract 中新增自訂字體。

我嘗試了同樣的事情(convert命令),但得到了一個損壞的 TIFF,無法用任何應用程式打開。

所以我選擇了 GUI 替代方案。我在 Scribus 中編寫文字(因為它允許我增加字元之間的間距),然後直接從文件-出口-另存為影像菜單。我選擇了 300 DPI 解析度。

您還可以嘗試什麼:

  • GIMP 開啟可另存為 TIFF 的 PDF
  • Ghostscript:(gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>如果是這種情況,它會轉換所有頁面)

您還可能遇到哪些其他問題:

  • Linux:如果你安裝了 Tesseract 的 repo 版本(至少在 Ubuntu 中),你將沒有所需的可執行檔:unicharset_extractor並且mftraining(或者它們不在路徑中,因為套件應該包括他們)。

相關內容