Con esto no se puede.

Con esto no se puede.

Hasta ahora, mis abuelos escribían a mano sus registros financieros, pero su letra no cursiva es más clara e inteligible que las imágenes que aparecen a continuación. Después de escanear cada página, ¿puede Excel 2019 convertir automáticamente y de inmediato la imagen escaneada en una hoja de cálculo de Excel? Incluso si el OCR reconoce el texto y los números, organizar cada texto y número consumirá demasiado tiempo.

Aquí está la fuente de la segunda imagen..Esta publicación de Reddit de 2016no produce nada útil.

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Respuesta1

tengo que estar de acuerdo conLa respuesta de music2myear.

Con cualquier computadora a la que tenga acceso, no podrá hacer nada útil para pasar de registros escritos a mano a Excel.

Hay al menos tres tareas difíciles:

  1. Distinguir el "contenido" del no contenido.
  2. Reconocer el diseño y traducirlo a las ubicaciones de las celdas.
  3. Reconocer los caracteres escritos a mano y traducirlos a texto.

Hay software de consumo y servicios en línea disponibles que hacen un trabajo razonable al convertir texto impreso por máquina en formato de tabla limpia en un archivo de hoja de cálculo. Pero incluso lo mejor puede estar lejos de ser perfecto. Esa es solo la tarea de asignar texto a la celda correcta según su posición.

Cuando miras esas imágenes, tu cerebro es muy bueno para distinguir qué es "forma preimpresa", qué es contenido, qué es ruido y qué son marcas humanas que no son relevantes. Puede reconocer cómo están alineadas las cosas y qué va con qué según el contexto. Para la computadora, todo lo que no sea el color de fondo es "algo". Averiguar qué es importante para usted y cuál podría ser algún tipo de personaje a traducir es extremadamente difícil. Y si el contenido se superpone a líneas preimpresas, eso introduce interrupciones y datos faltantes que la computadora no puede manejar fácilmente.

Tome sus imágenes, por ejemplo. La primera imagen es una causa perdida. Gran parte ignora las líneas y el diseño. Tendría la tarea adicional de separar y eliminar la cuadrícula preimpresa del contenido. En la segunda imagen, el contenido se encuentra principalmente dentro de los límites de la cuadrícula, pero hay muchas marcas perdidas (barras, subrayados, etc.) que requerirían limpieza.

Sin embargo, la parte más difícil es reconocer la escritura a mano y convertirla en texto de computadora. Para la imagen 1, incluso los humanos tendrían problemas para descubrir qué es algo de eso, e implicaría muchas conjeturas basadas en el contexto y la familiaridad con las palabras. En la imagen 2, la mayoría de los números no están tan mal, pero el texto sería un problema.

Si los registros de sus abuelos no están en cursiva y son claros, legibles, consistentes y similares a la impresión mecánica, el OCR podría hacer un trabajo "razonable". Pero todavía tendrías mucha limpieza.

En perspectiva, el Servicio Postal de EE. UU. tiene uno de los reconocimientos de escritura a mano más avanzados, que utiliza para leer direcciones en envíos postales para que puedan clasificarse con equipos automatizados. La única forma en que pueden hacerlo es porque las direcciones están en una estructura y formato prescritos, y conocen todas las direcciones posibles de antemano. El objetivo es más hacer coincidir las direcciones escritas a mano con candidatos viables que acertar todos los caracteres.

Hay un montón de redundancia. Si sólo puedes descifrar la mitad de los caracteres, es posible que todavía haya sólo una o unas pocas coincidencias posibles. Aun así, una parte sustancial requiere intervención humana. Cuando termina y el correo llega al transportista para su entrega, el transportista conoce las direcciones y los nombres en su ruta y lo verifica todo para asegurarse de que las direcciones no hayan sido malinterpretadas.

Ese es el nivel de OCR de escritura a mano con tecnología de punta y una gama extremadamente controlada de posibilidades con las que comparar. Tu tarea debe traducir cada carácter. No tiene una lista maestra de todas las palabras que podrían estar legítimamente en esos registros (aparte de un diccionario de todo el idioma). El OCR requeriría tanta limpieza que sería más rápido simplemente leer los registros y escribirlos en Excel. Esta no es una tarea inusual, y los ingresadores de datos profesionales pueden realizarla de manera bastante rápida y económica.

Respuesta2

Con esto no se puede.

O puede intentar utilizar las herramientas que hacen esto, llamadas "OCR" (por "Reconocimiento óptico de caracteres"), sin embargo, se basan en algoritmos que hacen mejores conjeturas sobre los caracteres que se representan y se basan en la condición de Con las entradas que tiene aquí, es MUY PROBABLE que obtenga un resultado satisfactorio.

Básicamente, incluso con las mejores herramientas disponibles en el mercado empresarial y de consumo actual, terminará teniendo que corregir o ingresar manualmente casi todos los datos usted mismo de todos modos.

Las computadoras pueden mejorar continuamente, pero siguen siendo muy inferiores a los ojos y al cerebro humanos a la hora de interpretar este tipo de información, al menos al nivel de las computadoras y el software disponibles para usted y para mí.

información relacionada