根據文件內容的 OCR 將元資料應用於文件

根據文件內容的 OCR 將元資料應用於文件

本質上,我正在尋找一個工具(Windows/Mac),它可以讓我執行以下工作流程:

  1. 將我的所有文件掃描到一個資料夾中(200-300 張掃描影像)
  2. 運行將遍歷所有檔案並對其運行 OCR 的工具
  3. 基於 OCR,元資料被應用到每個檔案。
  4. 然後,我讀取元資料並透過批次對文件進行相應的分類。

雖然 SU & SE 中有很多關於對文件進行普通 OCR 的建議,但我無法找到一個解決方案,本質上允許我根據文件中的 OCR 數據進行類似編程的操作。

文檔範本是標準的,因此我們知道需要什麼樣的文件。我們只想掃描整個文件,然後運行一個後端進程,將其整齊地分類/上傳到各自的資料夾中。經過 OCR 處理後,我可以選擇在文件中進行搜索,同時在 Acrobat reader/Preview 等程式中開啟它。但我想從批次/shell/蘋果腳本運行此分類邏輯。例如將文檔編號作為檔案名稱的前綴等。

答案1

你所描述的似乎是一個獨特的使用場景。我不相信有任何解決方案可以按照您描述的開箱即用的方式工作。如果這是一個非商業/研究項目,您就沒有太多選擇,特別是 Windows。只需谷歌搜尋 tesseract 看看你能做什麼。

如果您有一定的預算,您有多種選擇。目前還不清楚您是否需要現成的解決方案或 SDK,我假設您需要第一個,所以為什麼不看看識別伺服器,它是一種基於伺服器的 OCR 解決方案,專為大型部門和企業的中到大容量文件處理而設計。它既可以作為獨立程式部署,也可以與第三方系統(例如 DMS、RMS 和電子歸檔系統)整合。

我在 ABBYY 工作,如有必要,可以為您提供更多資訊。希望能幫助你!

相關內容