Tesseract OCR: サポートされていない画像タイプ

Question

フォローしていると思いますマイケル・リスナーの投稿Tesseract にカスタムフォントを追加します。

私も同じこと (convertコマンド) を試してみましたが、どのアプリケーションでも開けない壊れた TIFF になってしまいました。

そこで私はGUIの代替案を選びました。私はScribusでテキストを書き（文字間のスペースを広げることができるため）、ファイル-輸出-画像として保存メニュー。300 DPI の解像度を選択しました。

他に試すことができること:

GIMPはTIFFとして保存できるPDFを開きます
Ghostscript: gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>(その場合はすべてのページを変換します)

他に発生する可能性のある問題:

Linux: Tesseractのリポジトリバージョンをインストールした場合（少なくともUbuntuでは）、必要な実行ファイルがありません。unicharset_extractorおよびmftraining（または、パッケージがそれらを含める）。

Answer 1

フォローしていると思いますマイケル・リスナーの投稿Tesseract にカスタムフォントを追加します。

私も同じこと (convertコマンド) を試してみましたが、どのアプリケーションでも開けない壊れた TIFF になってしまいました。

そこで私はGUIの代替案を選びました。私はScribusでテキストを書き（文字間のスペースを広げることができるため）、ファイル-輸出-画像として保存メニュー。300 DPI の解像度を選択しました。

他に試すことができること:

GIMPはTIFFとして保存できるPDFを開きます
Ghostscript: gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>(その場合はすべてのページを変換します)

他に発生する可能性のある問題:

Linux: Tesseractのリポジトリバージョンをインストールした場合（少なくともUbuntuでは）、必要な実行ファイルがありません。unicharset_extractorおよびmftraining（または、パッケージがそれらを含める）。

関連情報