テキストの画像で構成された PDF - テキスト ファイルに変換するにはどうすればよいでしょうか?

テキストの画像で構成された PDF - テキスト ファイルに変換するにはどうすればよいでしょうか?

スキャンした多数のページから成る PDF があります。テキストのサンプル スニペットを以下に示します (これは公開されているドキュメントなので、プライバシーについては心配しないでください)。ご覧のとおり、非常に読みにくいです。

PDFの例

この PDF を読み取り、テキストを判別し、テキストを含むファイル (テキスト ファイル、マークダウン、サフィックスのない Linux ファイル、クリーンアップされた別の PDF など、何でもかまいません) を出力するプログラムを実行して、自分や他のユーザーが読みやすくしたいと考えています。文の適切な間隔など、書式設定についてはあまり気にしていません。

pdftotext を試してみましたが、テキスト エディターで "^L^L^L" が何度も繰り返されるだけのファイルが出力されました。ocrmypdf も試してみましたが、これも成功しませんでした (ただし、正しく使用したかどうかはわかりません)。画像の相対的な "汚さ"、テキストにさまざまなタイプミス、余分なスペース、スペルミスが含まれていることなどが問題です。このドキュメントからテキストを抽出するために、他にどのようなオプション (Linux で使用可能) をお勧めしますか?

答え1

出力は無料OCR、古いものを使用してTesseract OCR エンジン v. 5.1は、以下にあります。これはない画像パラメータ(コントラストなど)を調整したり、特定のフォントを選択したり(おそらく固定幅が使用された)、トレーニング語彙ファイルの 1 つを選択したり(または、対象に固有の「Aronburg」などの単語を含む新しいファイルを作成したり)することによって最適化されたわけではなく、これらの変更によって改善されることは間違いありません。

もしこれがのみ処理するアイテムが少ない場合は、処理を改善するための労力はそれほど価値がありませんが、画像が多い場合は、OCR 設定を微調整してより良い結果を得ることができます。

eae lUlUlUlUllCU

' ほぼ破壊され、アンゴリニアのナ

導入?

この偉大な戦争の記述とその結果については、おそらく、これほど短いタイトルが付けられる可能性のある、あらゆる架空の戦争に関する著者による記述の中で最も素晴らしいものでしょう。この物語の著者は、長く生々しい詳細を書き上げるのに 11 年以上を費やし、勝利するために 1 日 1 日戦い続けました。

キリストは長く血なまぐさい戦争に加わり、キリストは奇妙なアロンバーグの謎のせいで敗北して王座に就いたが、

誰にも、私自身にも解けなかったこの難問を、彼らはアロンバーグの恐ろしい戦いで敵の流れを変えてついに勝利した。

アロンバーグの子供の殺人事件と同じくらい有名なアロンバーグの事件は、私の

グランドコ・アンゴリン戦争の間中、キリスト教国3国はアロンバーグの戦いの勝利か「暗殺者」の復讐を唯一の望みと予想されていた。キリスト教国が戦争に勝利する可能性はなかったが、アビエニアはグランドコ・アンゴリンを自ら打ち負かし、クラベリニアは滅ぼされ、「

ゴンはホルアナイスで消滅した

答え2

これは、1 人の場合、最低でも 4 年と 7 か月、運が良ければ 11 年しかかからないでしょう。最善の解決策は、この「クラシック」をクラウド ゴースト ライターで代筆できるかどうかを確認することです (または、Google の慈善部門に問い合わせてください)。ただし、スペルの間違いはそのまま残すべきかどうかについて、基本ルールが必要です。

ここに画像の説明を入力してください

初期のページのみがタイプ入力されており、それ以降のページの多くはモノクロであるため、OCR または人間による転写を行うには、グレースケールで再度スキャンする必要があります。 ここに画像の説明を入力してください

関連情報