Con esto no se puede.

Question 1

tengo que estar de acuerdo conLa respuesta de music2myear.

Con cualquier computadora a la que tenga acceso, no podrá hacer nada útil para pasar de registros escritos a mano a Excel.

Hay al menos tres tareas difíciles:

Distinguir el "contenido" del no contenido.
Reconocer el diseño y traducirlo a las ubicaciones de las celdas.
Reconocer los caracteres escritos a mano y traducirlos a texto.

Hay software de consumo y servicios en línea disponibles que hacen un trabajo razonable al convertir texto impreso por máquina en formato de tabla limpia en un archivo de hoja de cálculo. Pero incluso lo mejor puede estar lejos de ser perfecto. Esa es solo la tarea de asignar texto a la celda correcta según su posición.

Cuando miras esas imágenes, tu cerebro es muy bueno para distinguir qué es "forma preimpresa", qué es contenido, qué es ruido y qué son marcas humanas que no son relevantes. Puede reconocer cómo están alineadas las cosas y qué va con qué según el contexto. Para la computadora, todo lo que no sea el color de fondo es "algo". Averiguar qué es importante para usted y cuál podría ser algún tipo de personaje a traducir es extremadamente difícil. Y si el contenido se superpone a líneas preimpresas, eso introduce interrupciones y datos faltantes que la computadora no puede manejar fácilmente.

Tome sus imágenes, por ejemplo. La primera imagen es una causa perdida. Gran parte ignora las líneas y el diseño. Tendría la tarea adicional de separar y eliminar la cuadrícula preimpresa del contenido. En la segunda imagen, el contenido se encuentra principalmente dentro de los límites de la cuadrícula, pero hay muchas marcas perdidas (barras, subrayados, etc.) que requerirían limpieza.

Sin embargo, la parte más difícil es reconocer la escritura a mano y convertirla en texto de computadora. Para la imagen 1, incluso los humanos tendrían problemas para descubrir qué es algo de eso, e implicaría muchas conjeturas basadas en el contexto y la familiaridad con las palabras. En la imagen 2, la mayoría de los números no están tan mal, pero el texto sería un problema.

Si los registros de sus abuelos no están en cursiva y son claros, legibles, consistentes y similares a la impresión mecánica, el OCR podría hacer un trabajo "razonable". Pero todavía tendrías mucha limpieza.

En perspectiva, el Servicio Postal de EE. UU. tiene uno de los reconocimientos de escritura a mano más avanzados, que utiliza para leer direcciones en envíos postales para que puedan clasificarse con equipos automatizados. La única forma en que pueden hacerlo es porque las direcciones están en una estructura y formato prescritos, y conocen todas las direcciones posibles de antemano. El objetivo es más hacer coincidir las direcciones escritas a mano con candidatos viables que acertar todos los caracteres.

Hay un montón de redundancia. Si sólo puedes descifrar la mitad de los caracteres, es posible que todavía haya sólo una o unas pocas coincidencias posibles. Aun así, una parte sustancial requiere intervención humana. Cuando termina y el correo llega al transportista para su entrega, el transportista conoce las direcciones y los nombres en su ruta y lo verifica todo para asegurarse de que las direcciones no hayan sido malinterpretadas.

Ese es el nivel de OCR de escritura a mano con tecnología de punta y una gama extremadamente controlada de posibilidades con las que comparar. Tu tarea debe traducir cada carácter. No tiene una lista maestra de todas las palabras que podrían estar legítimamente en esos registros (aparte de un diccionario de todo el idioma). El OCR requeriría tanta limpieza que sería más rápido simplemente leer los registros y escribirlos en Excel. Esta no es una tarea inusual, y los ingresadores de datos profesionales pueden realizarla de manera bastante rápida y económica.

Answer

tengo que estar de acuerdo conLa respuesta de music2myear.

Con cualquier computadora a la que tenga acceso, no podrá hacer nada útil para pasar de registros escritos a mano a Excel.

Hay al menos tres tareas difíciles:

Distinguir el "contenido" del no contenido.
Reconocer el diseño y traducirlo a las ubicaciones de las celdas.
Reconocer los caracteres escritos a mano y traducirlos a texto.