
スキャンした多数のページから成る PDF があります。テキストのサンプル スニペットを以下に示します (これは公開されているドキュメントなので、プライバシーについては心配しないでください)。ご覧のとおり、非常に読みにくいです。
この PDF を読み取り、テキストを判別し、テキストを含むファイル (テキスト ファイル、マークダウン、サフィックスのない Linux ファイル、クリーンアップされた別の PDF など、何でもかまいません) を出力するプログラムを実行して、自分や他のユーザーが読みやすくしたいと考えています。文の適切な間隔など、書式設定についてはあまり気にしていません。
pdftotext を試してみましたが、テキスト エディターで "^L^L^L" が何度も繰り返されるだけのファイルが出力されました。ocrmypdf も試してみましたが、これも成功しませんでした (ただし、正しく使用したかどうかはわかりません)。画像の相対的な "汚さ"、テキストにさまざまなタイプミス、余分なスペース、スペルミスが含まれていることなどが問題です。このドキュメントからテキストを抽出するために、他にどのようなオプション (Linux で使用可能) をお勧めしますか?
答え1
出力は無料OCR、古いものを使用してTesseract OCR エンジン v. 5.1は、以下にあります。これはない画像パラメータ(コントラストなど)を調整したり、特定のフォントを選択したり(おそらく固定幅が使用された)、トレーニング語彙ファイルの 1 つを選択したり(または、対象に固有の「Aronburg」などの単語を含む新しいファイルを作成したり)することによって最適化されたわけではなく、これらの変更によって改善されることは間違いありません。
もしこれがのみ処理するアイテムが少ない場合は、処理を改善するための労力はそれほど価値がありませんが、画像が多い場合は、OCR 設定を微調整してより良い結果を得ることができます。
eae lUlUlUlUllCU
' ほぼ破壊され、アンゴリニアのナ
導入?
この偉大な戦争の記述とその結果については、おそらく、これほど短いタイトルが付けられる可能性のある、あらゆる架空の戦争に関する著者による記述の中で最も素晴らしいものでしょう。この物語の著者は、長く生々しい詳細を書き上げるのに 11 年以上を費やし、勝利するために 1 日 1 日戦い続けました。
キリストは長く血なまぐさい戦争に加わり、キリストは奇妙なアロンバーグの謎のせいで敗北して王座に就いたが、
誰にも、私自身にも解けなかったこの難問を、彼らはアロンバーグの恐ろしい戦いで敵の流れを変えてついに勝利した。
アロンバーグの子供の殺人事件と同じくらい有名なアロンバーグの事件は、私の
グランドコ・アンゴリン戦争の間中、キリスト教国3国はアロンバーグの戦いの勝利か「暗殺者」の復讐を唯一の望みと予想されていた。キリスト教国が戦争に勝利する可能性はなかったが、アビエニアはグランドコ・アンゴリンを自ら打ち負かし、クラベリニアは滅ぼされ、「
ゴンはホルアナイスで消滅した