さまざまな種類の法定請求書があります。それらを Excel シートにデジタル化したいと考えています。レイアウトが異なり、数が多いため、処理方法がわかりません。実用的な解決策を提供してくれる人はいますか?
答え1
私の知る限り、手頃な価格で良い解決策はありません :(
Nuance OmniPage または Abby FlexiCapture を試してみてはいかがでしょうか (デスクトップ版から 10 万ドルのエンタープライズ版まであります)。以前、SDK/OCR の品質を両者で比較しました。大きな違いはありませんでしたが、Abbyy の方がほんの少し優れていると感じました (Nuance は数回クラッシュしましたが、Abbyy はクラッシュしませんでした)。
OmniPage と FlexiCapture (FineReader) には、PDF を編集可能な Excel ファイルに変換するデスクトップ版があります。無料試用版をいじってみてわかったのは、編集可能な Excel ファイルを作成できるが、非常に高品質でクリーンなソースのみであるということです。どちらもバッチ処理機能も提供しています。
また、scanstore.com が素晴らしいリソースであることもわかりました。
http://www.scanstore.com/Scanning_Software/Forms_Processing/Invoice_Processing/
オープンソースを探しているなら、最適な「エンジン」は tesseract です。フォーム キャプチャ全体をこれを中心に構築する必要があります。これについて少し考えてみましたが、必要なものは次のとおりです。
- 「バーコード」を使用するか、請求書の種類を登録する
- 各タイプについて、請求書のどの部分が表であるかを把握する
- 関連する領域を切り取り、tesserat/abbyy/nuanceに送信します
- テーブルに解析できるものを取得する
- 言語モデリングを適用する(驚いたことに、Abbyy と Nuance はここではひどい仕事をしている)
ちなみに、データ入力作業を行う実際の人員を抱える「BPO」サービス会社はたくさんあります。思ったほど高価ではありません。
答え2
無料の OCR ソフトウェアには、CuneiForm、GOCR、Ocrad、OCRopus、Tesseract などがあります。ただし、結果はあまり良くありません。ただし、FineReader、ExperVision、OmniPage を試すと、結果は良くなります。ただし、私の経験からすると、純粋なテクノロジー ソリューションに頼ることはできません。プロジェクト コストを適正な価格で管理したい場合は、OCR テクノロジーと人材を統合するのが良い選択です。私の知る限り、Expervision はカスタマイズされた OCR テクノロジーと BPO サービスの両方を提供できます。同社の Web で確認できます。専門知識