Aplicar metadatos a archivos basándose en OCR de su contenido

Aplicar metadatos a archivos basándose en OCR de su contenido

Básicamente, estoy buscando una herramienta (Windows/Mac) que me permita el siguiente flujo de trabajo:

  1. Escanear TODOS mis documentos en una carpeta (200-300 imágenes escaneadas)
  2. ejecute la herramienta que revisará todos los archivos y ejecutará OCR en ellos
  3. Según el OCR, los metadatos se aplican a cada archivo.
  4. Luego leo los metadatos y, en consecuencia, clasifico los archivos mediante un proceso por lotes.

Si bien hay bastantes sugerencias en SU ​​y SE para realizar OCR simple en archivos, no pude encontrar una solución que esencialmente me permita hacer cosas programáticas basadas en los datos editados con OCR de los documentos.

La plantilla del documento es estándar, por lo que sabemos qué tipo de archivo esperar. Solo queremos escanear todo el grupo y luego ejecutar un proceso de backend que categorice/cargue claramente en las carpetas respectivas. Tenerlo OCR me da la opción de buscar dentro del archivo, mientras lo abro en un programa como Acrobat Reader/Preview. Pero quiero ejecutar esta lógica de categorización desde un script por lotes/shell/apple. Cosas como anteponer el número del documento al nombre del archivo, etc.

Respuesta1

Lo que usted describe parece ser un escenario de uso único. No creo que existan soluciones que funcionen de la manera que usted describe. Si se trata de un proyecto de estudio o no comercial, no tiene muchas opciones, especialmente para Windows. Simplemente busca en Google tesseract y mira lo que puedes hacer.

Si tienes algo de presupuesto, tienes varias opciones. No está muy claro si necesita una solución lista para usar o un SDK, supongo que necesita el primero, así que ¿por qué no echa un vistazo aservidor de reconocimiento, es una solución de OCR basada en servidor diseñada para el procesamiento de documentos de volumen medio a alto en grandes departamentos y empresas. Puede implementarse como un programa independiente o integrarse con un sistema de terceros, como DMS, RMS y un sistema de archivo electrónico.

Trabajo en ABBYY y puedo brindarle más información si es necesario. ¡Espero eso ayude!

información relacionada