TIFF から TEXT へ、またはテキスト内容に基づいて TIFF ファイルをインデックスする

TIFF から TEXT へ、またはテキスト内容に基づいて TIFF ファイルをインデックスする

私には数千の Tiff ファイルがあり、それぞれが複数ページのテキスト ドキュメントです。これらのファイルの内容を検索し、名前、市、郡、州、通り、郵便番号などの特定の情報に基づいて整理/インデックスを作成できるようにしたいと考えています。目標は、検索語に基づいて関連ファイルを見つけることです。たとえば、「Doyle、Bob」と「Orange County」を検索すると、これらの語を含むすべてのファイルが取得されます。Windows と Linux の PC が利用可能ですが、クロス プラットフォームである必要はありません。

何を指示してるんですか?

答え1

これらの (tiff) ファイルの内容を検索できるようにしたいと思います。

以下に、Windows 用と Linux 用の 2 つのソリューションを示します。


Windows ソリューション

インストールできますTIFF Iフィルター

Windows® TIFF IFilter を使用すると、テキスト コンテンツに基づいて TIFF ドキュメントを検索できます。Windows TIFF IFilter が読み込まれると、TIFF イメージの光学式文字認識 (OCR) 処理が実行され、認識されたテキストが呼び出し元に提供され、検索インデックスが作成されます。

Windows TIFF IFilter はテキストベースのドキュメントに重点を置いています。つまり、明確に識別できるテキスト (たとえば、白い背景に黒いテキスト) を含むドキュメントでは検索が成功しやすく、混合コンテンツ (たとえば、芸術的なテキストや画像内のテキスト) を含むドキュメントでは検索が成功しにくくなります。さらに、低品質の画像や混合言語は OCR 処理に悪影響を与え、結果として検索結果の品質が低下する可能性があります。

Windows TIFF IFilter は、Adobe TIFF リビジョン 6.0 仕様に準拠するすべての TIFF ドキュメントをサポートし、最も一般的な圧縮形式 (LZW、JPG、CCITT v4、CCITT v6、非圧縮など) が含まれています。

ソースリンクには詳細なインストール手順が記載されています。

注記:

ソースWindows TIFF IFilter のインストールと操作ガイド


Linuxソリューション

  1. TIFF ファイルをテキスト ファイルまたは PDF ファイルに変換します。

    • 以下のリンクは、中間 OCR ステップ (Tesseract を使用) を使用して PDF に変換する方法を示しています。

    • 中間ステップではテキスト ファイルが生成されます。

    • つまり、PDF は画像ではなくテキストから作成されます。

  2. 必要に応じてテキスト ファイルまたは PDF ファイルを検索します。

見るOCRによるテキストのスキャンと編集変換のための 1 つのアプローチです。

関連情報