ターミナルで Cuneiform を使用して画像ベースの PDF からテキストを抽出する方法

2024-7-8 • tag-icon

linux pdf fedora ocr

ターミナルで Cuneiform を使用して画像ベースの PDF からテキストを抽出する方法

楔形文字 -l eng -f テキスト -o outocr.txt 入力.pdf

上記のコマンドをターミナルで実行すると、PDF タイトルページのテキストのみが outocr.txt ファイルに出力されます。120 ページの PDF 内のすべてのテキストを認識させるにはどうすればよいですか? Fedora Linux 25 (x86_64) を使用しています。

答え1

この投稿では、多数の個別のページを読み取って複数ページの PDF を作成するサンプルスクリプトを紹介します。Cuneiform 自体は複数ページのドキュメントを作成しません。 Linux 上の PDF から OCR を使用してテキストを抽出する方法は?

関連情報