Применять метаданные к файлам на основе OCR их содержимого

Применять метаданные к файлам на основе OCR их содержимого

По сути, я ищу инструмент (Windows/Mac), который позволит мне реализовать следующий рабочий процесс:

  1. Отсканируйте ВСЕ мои документы в папку (200-300 отсканированных изображений)
  2. запустить инструмент, который проверит все файлы и выполнит OCR для них
  3. На основе OCR к каждому файлу применяются метаданные.
  4. Затем я считываю метаданные и соответствующим образом классифицирую файлы с помощью пакетного процесса.

Хотя в SU и SE есть довольно много предложений по выполнению простого OCR в файлах, мне не удалось найти решение, которое по сути позволило бы мне выполнять программные действия на основе OCR-данных из документов.

Шаблон документа стандартный, поэтому мы знаем, какой тип файла ожидать. Мы просто хотим отсканировать всю кучу, а затем запустить внутренний процесс, который аккуратно категоризирует/загрузит в соответствующие папки. Наличие OCR дает мне возможность искать в файле, пока я открываю его в программе типа Acrobat reader/Preview. Но я хочу запустить эту логику категоризации из пакетного/shell/скрипта Apple. Такие вещи, как добавление префикса номера документа к имени файла и т. д.

решение1

То, что вы описываете, похоже, является уникальным сценарием использования. Я не верю, что есть решения, которые работают так, как вы описываете, из коробки. Если это некоммерческий/учебный проект, у вас нет особого выбора, особенно для Windows. Просто погуглите tesseract и посмотрите, что вы можете сделать.

Если у вас есть бюджет, у вас есть несколько вариантов. Не совсем понятно, нужно ли вам готовое решение или SDK, я предполагаю, что вам нужно первое, так что почему бы вам не взглянуть насервер распознавания, это серверное решение OCR, разработанное для обработки документов среднего и большого объема в крупных отделах и на предприятиях. Его можно развернуть как отдельную программу или интегрировать со сторонней системой, например DMS, RMS и системой электронного архивирования.

Я работаю в ABBYY и могу предоставить вам больше информации, если это необходимо. Надеюсь, это поможет!

Связанный контент