楔形文字 -l eng -f テキスト -o outocr.txt 入力.pdf
上記のコマンドをターミナルで実行すると、PDF タイトル ページのテキストのみが outocr.txt ファイルに出力されます。120 ページの PDF 内のすべてのテキストを認識させるにはどうすればよいですか? Fedora Linux 25 (x86_64) を使用しています。
答え1
この投稿では、多数の個別のページを読み取って複数ページの PDF を作成するサンプル スクリプトを紹介します。Cuneiform 自体は複数ページのドキュメントを作成しません。 Linux 上の PDF から OCR を使用してテキストを抽出する方法は?