法定請求書用 OCR ソリューション

法定請求書用 OCR ソリューション

さまざまな種類の法定請求書があります。それらを Excel シートにデジタル化したいと考えています。レイアウトが異なり、数が多いため、処理方法がわかりません。実用的な解決策を提供してくれる人はいますか?

答え1

私の知る限り、手頃な価格で良い解決策はありません :(

Nuance OmniPage または Abby FlexiCapture を試してみてはいかがでしょうか (デスクトップ版から 10 万ドルのエンタープライズ版まであります)。以前、SDK/OCR の品質を両者で比較しました。大きな違いはありませんでしたが、Abbyy の方がほんの少し優れていると感じました (Nuance は数回クラッシュしましたが、Abbyy はクラッシュしませんでした)。

OmniPage と FlexiCapture (FineReader) には、PDF を編集可能な Excel ファイルに変換するデスクトップ版があります。無料試用版をいじってみてわかったのは、編集可能な Excel ファイルを作成できるが、非常に高品質でクリーンなソースのみであるということです。どちらもバッチ処理機能も提供しています。

また、scanstore.com が素晴らしいリソースであることもわかりました。

http://www.scanstore.com/Scanning_Software/Forms_Processing/Invoice_Processing/

オープンソースを探しているなら、最適な「エンジン」は tesseract です。フォーム キャプチャ全体をこれを中心に構築する必要があります。これについて少し考えてみましたが、必要なものは次のとおりです。

  1. 「バーコード」を使用するか、請求書の種類を登録する
  2. 各タイプについて、請求書のどの部分が表であるかを把握する
  3. 関連する領域を切り取り、tesserat/abbyy/nuanceに送信します
  4. テーブルに解析できるものを取得する
  5. 言語モデリングを適用する(驚いたことに、Abbyy と Nuance はここではひどい仕事をしている)

ちなみに、データ入力作業を行う実際の人員を抱える「BPO」サービス会社はたくさんあります。思ったほど高価ではありません。

答え2

無料の OCR ソフトウェアには、CuneiForm、GOCR、Ocrad、OCRopus、Tesseract などがあります。ただし、結果はあまり良くありません。ただし、FineReader、ExperVision、OmniPage を試すと、結果は良くなります。ただし、私の経験からすると、純粋なテクノロジー ソリューションに頼ることはできません。プロジェクト コストを適正な価格で管理したい場合は、OCR テクノロジーと人材を統合するのが良い選択です。私の知る限り、Expervision はカスタマイズされた OCR テクノロジーと BPO サービスの両方を提供できます。同社の Web で確認できます。専門知識

関連情報