Solución OCR para facturas de facturación legal

Solución OCR para facturas de facturación legal

Tengo diferentes tipos de facturas de facturación legal. Quiero digitalizarlos en hojas de Excel. Dado que sus diseños son diferentes y hay muchos, no puedo encontrar una manera de lidiar con ellos. ¿Alguien puede darme una solución práctica?

Respuesta1

No conozco ninguna solución buena y de precio razonable :(

Podría intentar consultar Nuance OmniPage o Abby FlexiCapture (hay desde ediciones de escritorio hasta versiones empresariales de 100.000 dólares). Hace algún tiempo comparé la calidad de los SDK/OCR entre ellos. No hay mucha diferencia, aunque sentí que Abbyy estaba un poquito mejor (Nuance falló un par de veces, Abbyy no).

Tanto OmniPage como FlexiCapture (FineReader) tienen ediciones de escritorio que pretenden convertir archivos PDF en archivos de Excel editables. Lo que aprendí al probar las versiones de prueba gratuitas fue que crean archivos de Excel editables, pero solo para fuentes limpias y de muy alta calidad. Ambos también ofrecen funcionalidad de procesamiento por lotes.

También descubrí que scanstore.com es un recurso increíble:

http://www.scanstore.com/Scanning_Software/Forms_Processing/Invoice_Processing/

Si busca código abierto, el mejor 'motor' es Tesseract. Necesitará crear el bit de captura de formularios completo a su alrededor. He pensado un poco en esto, y necesitarías:

  1. Utilice 'códigos de barras' o registre tipos de facturas
  2. Para cada tipo: averigüe qué partes de la factura son tablas
  3. Recorta el área relevante y envíala a tesserat/abbyy/nuance
  4. Recuperar algo que pueda analizarse en una tabla
  5. Aplicar modelos de lenguaje (sorprendentemente Abbyy, Nuance hacen un trabajo terrible aquí)

Ah, y para su información, hay muchas empresas de servicios 'BPO' que cuentan con personas reales para realizar el trabajo de entrada de datos. No es tan caro como parece.

Respuesta2

Aquí hay algunos softwares de OCR gratuitos: CuneiForm, GOCR, Ocrad, OCRopus, Tesseract. Pero el resultado no es tan bueno. Pero puedes probar FineReader, ExperVision, OmniPage, el resultado será mejor. Sin embargo, según mi experiencia, no se puede confiar en una solución tecnológica pura. Si desea controlar el costo de su proyecto a un precio razonable. Integrar la tecnología OCR y los recursos humanos es una buena elección. Hasta donde yo sé, Expervision puede proporcionar tecnología OCR personalizada y servicio BPO; puede consultar su web.Experiencia

información relacionada