Tenho diferentes tipos de faturas legais. Quero digitalizá-los em planilhas do Excel. Como seus layouts são diferentes e há muitos deles, não consigo encontrar uma maneira de lidar com eles. Alguém pode me fornecer uma solução prática?
Responder1
Não há nenhuma solução boa e com preço razoável que eu conheça :(
Você pode tentar verificar Nuance OmniPage ou Abby FlexiCapture (existem edições para desktop até versões empresariais de US$ 100 mil). Algum tempo atrás, comparei a qualidade dos SDKs/OCR entre eles. Não há muita diferença, embora eu achasse que Abbyy estava um pouquinho melhor (o Nuance travou algumas vezes, o Abbyy não).
Tanto o OmniPage quanto o FlexiCapture (FineReader) possuem edições para desktop que pretendem converter PDFs em arquivos Excel editáveis. Pelo que aprendi ao mexer nas versões de teste gratuitas, é que elas criam arquivos Excel editáveis, mas apenas para fontes limpas e de alta qualidade. Ambos também oferecem funcionalidade de processamento em lote.
Também descobri que scanstore.com é um recurso incrível:
http://www.scanstore.com/Scanning_Software/Forms_Processing/Invoice_Processing/
Se você está procurando código aberto - o melhor 'mecanismo' é o tesseract. Você precisará construir toda a parte de captura de formulários em torno dele. Pensei um pouco sobre isso - e você precisaria de:
- Use 'códigos de barras' ou registre tipos de fatura
- Para cada tipo – descubra quais partes da fatura são tabelas
- Corte a área relevante - e envie para tesserat/abbyy/nuance
- Recupere algo que possa ser analisado em uma tabela
- Aplicar modelagem de linguagem (surpreendentemente, Abbyy e Nuance fazem um péssimo trabalho aqui)
Ah, e para sua informação, existem muitas empresas de serviços de 'BPO' que têm pessoas reais para fazer o trabalho de entrada de dados. Não é tão caro quanto você imagina.
Responder2
Aqui estão alguns softwares de OCR gratuitos: CuneiForm, GOCR, Ocrad, OCRopus, Tesseract. Mas o resultado não é tão bom. Mas você pode experimentar FineReader, ExperVision, OmniPage, o resultado será melhor. No entanto, com base na minha experiência, não se pode confiar na solução puramente tecnológica. Se você deseja controlar o custo do seu projeto a um preço razoável. Integrar a tecnologia OCR e os recursos humanos é uma boa escolha. Pelo que eu sei, a Expervision pode fornecer tecnologia de OCR personalizada e serviço de BPO, você pode verificar o site deles.Experiência