
ターミナルで次のコマンドを使用してPDFをTIFファイルに変換しました
convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif
convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif
次にmakebox
コマンドを実行しようとしました。
tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox
次のエラーが発生しました:
Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.
そして、それがに関連するものであると仮定してlibtiff
、コマンドを実行しtesseract -v
、それが欠落していることを発見(または推測)しました。
tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5
lib tiff をアンインストールして再インストールしても同じ結果になります。何が足りないのかわかりません。アドバイスをお願いします。
brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff
コマンドの出力brew info leptonica
編集#1
GhostScript
コマンドを実行しようとすると、同じエラーが返されるtiff ファイルを作成しましたmakebox
。他に何か見落としていることがあるのでしょうか? フォント サイズを 50 以上に設定しましたが、これで問題ありませんか?
https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip(約4MB)
編集#2
を使用して 1 ページの tif を作成しましたGhostScript
が、動作しません。
https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip(約60KB)
答え1
フォローしていると思いますマイケル・リスナーの投稿Tesseract にカスタムフォントを追加します。
私も同じこと (convert
コマンド) を試してみましたが、どのアプリケーションでも開けない壊れた TIFF になってしまいました。
そこで私はGUIの代替案を選びました。私はScribusでテキストを書き(文字間のスペースを広げることができるため)、ファイル-輸出-画像として保存メニュー。300 DPI の解像度を選択しました。
他に試すことができること:
- GIMPはTIFFとして保存できるPDFを開きます
- Ghostscript:
gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>
(その場合はすべてのページを変換します)
他に発生する可能性のある問題:
- Linux: Tesseractのリポジトリバージョンをインストールした場合(少なくともUbuntuでは)、必要な実行ファイルがありません。
unicharset_extractor
およびmftraining
(または、パッケージがそれらを含める)。