Решение OCR для юридических счетов-фактур

Решение OCR для юридических счетов-фактур

У меня есть разные виды счетов-фактур юридических лиц. Я хочу оцифровать их в таблицы Excel. Поскольку их макеты отличаются и их много, я не могу найти способ с ними справиться. Может ли кто-нибудь дать мне практическое решение?

решение1

Насколько я знаю, хорошего и недорогого решения не существует :(

Вы можете попробовать Nuance OmniPage или Abby FlexiCapture (есть версии для настольных компьютеров вплоть до корпоративных версий за $100 тыс.). Некоторое время назад я сравнивал качество SDK/OCR между ними. Большой разницы нет, хотя мне показалось, что Abbyy немного лучше (Nuance зависал пару раз, Abbyy — нет).

У OmniPage и FlexiCapture (FineReader) есть настольные версии, которые претендуют на преобразование PDF-файлов в редактируемые файлы Excel. Из того, что я узнал, повозившись с бесплатными пробными версиями, я узнал, что они действительно создают редактируемые файлы Excel, но только для очень высококачественных, чистых источников. Оба также предлагают функцию пакетной обработки.

Я также обнаружил, что scanstore.com — это потрясающий ресурс:

http://www.scanstore.com/Scanning_Software/Forms_Processing/Invoice_Processing/

Если вы ищете открытый исходный код - лучший "движок" - tesseract. Вам нужно будет построить весь кусок захвата форм вокруг него. Я немного поразмыслил над этим - и вам понадобится:

  1. Используйте «штрих-коды» или иным образом регистрируйте типы счетов-фактур
  2. Для каждого типа - выясните, какие части счета являются таблицами.
  3. Обрежьте нужную область и отправьте ее в tesserat/abbyy/nuance
  4. Получите обратно что-то, что можно преобразовать в таблицу
  5. Применить языковое моделирование (удивительно, но Abbyy и Nuance справляются с этой задачей ужасно)

О, и FYI, есть много компаний, предоставляющих услуги 'BPO', у которых есть реальные люди, которые выполняют работу по вводу данных. Это не так дорого, как вы могли бы подумать.

решение2

Вот несколько бесплатных программ OCR: CuneiForm, GOCR, Ocrad, OCRopus, Tesseract. Но результат не очень хороший. Но вы можете попробовать FineReader, ExperVision, OmniPage, результат будет лучше. Однако, основываясь на моем опыте, вы не можете полагаться на чисто технологическое решение. Если вы хотите контролировать стоимость своего проекта по разумной цене. Интеграция технологии OCR и человеческих ресурсов — хороший выбор. Насколько мне известно, Expervision может предоставлять как индивидуальные технологии OCR, так и услуги BPO, вы можете проверить их веб-сайт.Expervision

Связанный контент