Solução OCR para faturas legais

Solução OCR para faturas legais

Tenho diferentes tipos de faturas legais. Quero digitalizá-los em planilhas do Excel. Como seus layouts são diferentes e há muitos deles, não consigo encontrar uma maneira de lidar com eles. Alguém pode me fornecer uma solução prática?

Responder1

Não há nenhuma solução boa e com preço razoável que eu conheça :(

Você pode tentar verificar Nuance OmniPage ou Abby FlexiCapture (existem edições para desktop até versões empresariais de US$ 100 mil). Algum tempo atrás, comparei a qualidade dos SDKs/OCR entre eles. Não há muita diferença, embora eu achasse que Abbyy estava um pouquinho melhor (o Nuance travou algumas vezes, o Abbyy não).

Tanto o OmniPage quanto o FlexiCapture (FineReader) possuem edições para desktop que pretendem converter PDFs em arquivos Excel editáveis. Pelo que aprendi ao mexer nas versões de teste gratuitas, é que elas criam arquivos Excel editáveis, mas apenas para fontes limpas e de alta qualidade. Ambos também oferecem funcionalidade de processamento em lote.

Também descobri que scanstore.com é um recurso incrível:

http://www.scanstore.com/Scanning_Software/Forms_Processing/Invoice_Processing/

Se você está procurando código aberto - o melhor 'mecanismo' é o tesseract. Você precisará construir toda a parte de captura de formulários em torno dele. Pensei um pouco sobre isso - e você precisaria de:

  1. Use 'códigos de barras' ou registre tipos de fatura
  2. Para cada tipo – descubra quais partes da fatura são tabelas
  3. Corte a área relevante - e envie para tesserat/abbyy/nuance
  4. Recupere algo que possa ser analisado em uma tabela
  5. Aplicar modelagem de linguagem (surpreendentemente, Abbyy e Nuance fazem um péssimo trabalho aqui)

Ah, e para sua informação, existem muitas empresas de serviços de 'BPO' que têm pessoas reais para fazer o trabalho de entrada de dados. Não é tão caro quanto você imagina.

Responder2

Aqui estão alguns softwares de OCR gratuitos: CuneiForm, GOCR, Ocrad, OCRopus, Tesseract. Mas o resultado não é tão bom. Mas você pode experimentar FineReader, ExperVision, OmniPage, o resultado será melhor. No entanto, com base na minha experiência, não se pode confiar na solução puramente tecnológica. Se você deseja controlar o custo do seu projeto a um preço razoável. Integrar a tecnologia OCR e os recursos humanos é uma boa escolha. Pelo que eu sei, a Expervision pode fornecer tecnologia de OCR personalizada e serviço de BPO, você pode verificar o site deles.Experiência

informação relacionada