TIFF から TEXT へ、またはテキスト内容に基づいて TIFF ファイルをインデックスする

Question

これらの (tiff) ファイルの内容を検索できるようにしたいと思います。

以下に、Windows 用と Linux 用の 2 つのソリューションを示します。

Windows ソリューション

インストールできますTIFF Iフィルター。

Windows® TIFF IFilter を使用すると、テキストコンテンツに基づいて TIFF ドキュメントを検索できます。Windows TIFF IFilter が読み込まれると、TIFF イメージの光学式文字認識 (OCR) 処理が実行され、認識されたテキストが呼び出し元に提供され、検索インデックスが作成されます。

Windows TIFF IFilter はテキストベースのドキュメントに重点を置いています。つまり、明確に識別できるテキスト (たとえば、白い背景に黒いテキスト) を含むドキュメントでは検索が成功しやすく、混合コンテンツ (たとえば、芸術的なテキストや画像内のテキスト) を含むドキュメントでは検索が成功しにくくなります。さらに、低品質の画像や混合言語は OCR 処理に悪影響を与え、結果として検索結果の品質が低下する可能性があります。

Windows TIFF IFilter は、Adobe TIFF リビジョン 6.0 仕様に準拠するすべての TIFF ドキュメントをサポートし、最も一般的な圧縮形式 (LZW、JPG、CCITT v4、CCITT v6、非圧縮など) が含まれています。

ソースリンクには詳細なインストール手順が記載されています。

注記：

Windows TIFFフィルターは、Windows 7 StarterまたはWindows 7 Home Basicでは利用できません（ヒント: Windows 7 で Tiff インデックスを有効にして Tiff ファイルを検索する）

ソースWindows TIFF IFilter のインストールと操作ガイド

Linuxソリューション

TIFF ファイルをテキストファイルまたは PDF ファイルに変換します。
- 以下のリンクは、中間 OCR ステップ (Tesseract を使用) を使用して PDF に変換する方法を示しています。
- 中間ステップではテキストファイルが生成されます。
- つまり、PDF は画像ではなくテキストから作成されます。
必要に応じてテキストファイルまたは PDF ファイルを検索します。

見るOCRによるテキストのスキャンと編集変換のための 1 つのアプローチです。

Answer 1

これらの (tiff) ファイルの内容を検索できるようにしたいと思います。

以下に、Windows 用と Linux 用の 2 つのソリューションを示します。

Windows ソリューション

インストールできますTIFF Iフィルター。

Windows® TIFF IFilter を使用すると、テキストコンテンツに基づいて TIFF ドキュメントを検索できます。Windows TIFF IFilter が読み込まれると、TIFF イメージの光学式文字認識 (OCR) 処理が実行され、認識されたテキストが呼び出し元に提供され、検索インデックスが作成されます。

Windows TIFF IFilter はテキストベースのドキュメントに重点を置いています。つまり、明確に識別できるテキスト (たとえば、白い背景に黒いテキスト) を含むドキュメントでは検索が成功しやすく、混合コンテンツ (たとえば、芸術的なテキストや画像内のテキスト) を含むドキュメントでは検索が成功しにくくなります。さらに、低品質の画像や混合言語は OCR 処理に悪影響を与え、結果として検索結果の品質が低下する可能性があります。

Windows TIFF IFilter は、Adobe TIFF リビジョン 6.0 仕様に準拠するすべての TIFF ドキュメントをサポートし、最も一般的な圧縮形式 (LZW、JPG、CCITT v4、CCITT v6、非圧縮など) が含まれています。

ソースリンクには詳細なインストール手順が記載されています。

注記：

Windows TIFFフィルターは、Windows 7 StarterまたはWindows 7 Home Basicでは利用できません（ヒント: Windows 7 で Tiff インデックスを有効にして Tiff ファイルを検索する）

ソースWindows TIFF IFilter のインストールと操作ガイド

Linuxソリューション

TIFF ファイルをテキストファイルまたは PDF ファイルに変換します。
- 以下のリンクは、中間 OCR ステップ (Tesseract を使用) を使用して PDF に変換する方法を示しています。
- 中間ステップではテキストファイルが生成されます。
- つまり、PDF は画像ではなくテキストから作成されます。
必要に応じてテキストファイルまたは PDF ファイルを検索します。

見るOCRによるテキストのスキャンと編集変換のための 1 つのアプローチです。

TIFF から TEXT へ、またはテキスト内容に基づいて TIFF ファイルをインデックスする

答え1

これらの (tiff) ファイルの内容を検索できるようにしたいと思います。

Windows ソリューション

Linuxソリューション

関連情報