我有不同類型的合法帳單發票。我想將它們數位化為 Excel 表格。由於它們的佈局不同且數量較多,我找不到處理它們的方法。有人可以提供我一個實用的解決方案嗎?
答案1
據我所知,沒有好的、價格合理的解決方案:(
您可以嘗試查看 Nuance OmniPage 或 Abby FlexiCapture(有桌面版一直到價值 10 萬美元的企業版)。不久前,我比較了它們之間的 SDK/OCR 品質。沒有太大區別,儘管我覺得 Abbyy 稍微好一點(Nuance 崩潰了幾次,Abbyy 沒有)。
OmniPage 和 FlexiCapture (FineReader) 都有桌面版本,旨在將 PDF 轉換為可編輯的 Excel 檔案。我透過修改免費試用版了解到,它們確實可以創建可編輯的 Excel 文件,但僅限於非常高品質、乾淨的來源。兩者還提供批次功能。
我還發現 scanstore.com 是一個很棒的資源:
http://www.scanstore.com/Scanning_Software/Forms_Processing/Invoice_Processing/
如果您正在尋找開源 - 最好的“引擎”是 tesseract。您將需要圍繞它構建整個表單捕獲位。我已經對此做了一些思考 - 你需要:
- 使用「條碼」或以其他方式註冊發票類型
- 對於每種類型 - 找出發票的哪些部分是表格
- 裁剪相關區域 - 並將其發送到 tesserat/abbyy/nuance
- 傳回可以解析到表中的內容
- 應用語言建模(令人驚訝的是 Abbyy、Nuance 在這裡做得很糟糕)
哦,僅供參考,有很多“BPO”服務公司都有真人來做資料輸入工作。它並不像你想像的那麼貴。
答案2
這裡有一些免費的 OCR 軟體:CuneiForm、GOCR、Ocrad、OCRopus、Tesseract。但結果卻不太好。但你可以嘗試FineReader、ExperVision、OmniPage,結果會更好。然而,根據我的經驗,你不能依賴純技術解決方案。如果您確實想將專案成本控制在合理的價格下。將OCR技術與人力資源結合是一個不錯的選擇。據我了解,Expervision既可以提供客製化的OCR技術,也可以提供BPO服務,你可以查看他們的網站。經驗視野