PDF 内の OCR とレイヤーテキスト

PDF 内の OCR とレイヤーテキスト

PDF を OCR して検索可能にしたいです。

スキャナを使用して作成された、または画像データで構成され、テキスト データがない PDF ドキュメントがあるとします。このような PDF は、PDF リーダーやデスクトップ検索アプリケーションで検索できません。pdfocr は、私が作成したシンプルなユーティリティで、PDF ファイルを受け取り、テキスト レイヤーが追加された新しいファイルを生成します。この新しいファイルは、PDF リーダーで検索でき、デスクトップ検索アプリケーションでインデックスを作成できますが、印刷してもまったく同じです。

から方法: pdfocr を使用してスキャンした PDF を検索可能 (OCR) にする

現在、FreeOCRのようなWindowsソフトウェアはPDFからTXTファイルのみを作成しますが、私は元のPDFのみが欲しいのです。検索可能

答え1

Adobe Acrobatには、あなたが言及している機能があります。Acrobat 10/11では、その機能はツールの「テキスト認識」セクションにあります(公式文書)。以前のバージョンでも同じ機能が利用可能でしたが、アクセス方法が若干異なっていました(Adobeのブログ)。

任意のページまたはすべてのページで個別に OCR を実行でき、OCR 適用後の PDF は同一に見えます (ただし、検索可能になります)。

関連情報