Tesseract OCR: サポートされていない画像タイプ

Tesseract OCR: サポートされていない画像タイプ

ターミナルで次のコマンドを使用してPDFをTIFファイルに変換しました

convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif

convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif

次にmakeboxコマンドを実行しようとしました。

tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox

次のエラーが発生しました:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.

そして、それがに関連するものであると仮定してlibtiff、コマンドを実行しtesseract -v、それが欠落していることを発見(または推測)しました。

tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5

lib tiff をアンインストールして再インストールしても同じ結果になります。何が足りないのかわかりません。アドバイスをお願いします。

brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff

コマンドの出力brew info leptonica ここ

編集#1

GhostScriptコマンドを実行しようとすると、同じエラーが返されるtiff ファイルを作成しましたmakebox。他に何か見落としていることがあるのでしょうか? フォント サイズを 50 以上に設定しましたが、これで問題ありませんか?

https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip(約4MB)

編集#2

を使用して 1 ページの tif を作成しましたGhostScriptが、動作しません。

https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip(約60KB)

答え1

フォローしていると思いますマイケル・リスナーの投稿Tesseract にカスタムフォントを追加します。

私も同じこと (convertコマンド) を試してみましたが、どのアプリケーションでも開けない壊れた TIFF になってしまいました。

そこで私はGUIの代替案を選びました。私はScribusでテキストを書き(文字間のスペースを広げることができるため)、ファイル-輸出-画像として保存メニュー。300 DPI の解像度を選択しました。

他に試すことができること:

  • GIMPはTIFFとして保存できるPDFを開きます
  • Ghostscript: gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>(その場合はすべてのページを変換します)

他に発生する可能性のある問題:

  • Linux: Tesseractのリポジトリバージョンをインストールした場合(少なくともUbuntuでは)、必要な実行ファイルがありません。unicharset_extractorおよびmftraining(または、パッケージがそれらを含める)。

関連情報