コンテンツのOCRに基づいてファイルにメタデータを適用します

コンテンツのOCRに基づいてファイルにメタデータを適用します

基本的に、次のワークフローを可能にするツール (Windows/Mac) を探しています。

  1. すべての文書をフォルダーにスキャンします(スキャンした画像 200~300 枚)
  2. すべてのファイルを調べてOCRを実行するツールを実行します
  3. OCR に基づいて、各ファイルにメタデータが適用されます。
  4. 次に、メタデータを読み取り、それに応じてバッチプロセスを通じてファイルを分類します。

SU と SE には、ファイルに対して単純な OCR を実行するための提案がかなりありますが、ドキュメントから OCR されたデータに基づいてプログラムのような操作を本質的に実行できるソリューションは見つかりませんでした。

ドキュメント テンプレートは標準なので、どのような種類のファイルが期待されるかはわかっています。私たちは、全体をスキャンして、それぞれのフォルダーにきちんと分類/アップロードするバックエンド プロセスを実行したいだけです。OCR 処理すると、Acrobat Reader/Preview などのプログラムでファイルを開くときに、ファイル内を検索するオプションが提供されます。ただし、この分類ロジックをバッチ/シェル/Apple スクリプトから実行したいと考えています。ファイル名にドキュメント番号をプレフィックスとして付けるなどの操作です。

答え1

あなたが説明しているものは、ユニークな使用シナリオのようです。あなたが説明しているように、すぐに使えるソリューションがあるとは思えません。これが非商用/研究プロジェクトである場合、特に Windows の場合、選択肢はあまりありません。Google で tesseract を検索して、何ができるか見てください。

予算があれば、選択肢はいくつかあります。すぐに使えるソリューションとSDKのどちらが必要かは明確ではありませんが、前者が必要だと思いますので、以下をご覧になってはいかがでしょうか。認識サーバーは、大規模な部門や企業全体での中規模から大規模のドキュメント処理向けに設計されたサーバーベースの OCR ソリューションです。スタンドアロン プログラムとして導入することも、DMS、RMS、電子アーカイブ システムなどのサードパーティ システムと統合することもできます。

私は ABBYY で働いており、必要に応じてさらに詳しい情報を提供できます。お役に立てれば幸いです。

関連情報