Bisher haben meine Großeltern ihre Finanzunterlagen handschriftlich verfasst, aber ihre nicht-kursive Handschrift ist sauberer und verständlicher als die Bilder darunter. Kann Excel 2019 nach dem Scannen jeder Seite das gescannte Bild automatisch und umgehend in eine Excel-Tabelle umwandeln? Selbst wenn OCR den Text und die Zahlen erkennt, würde das Anordnen jedes Textes und jeder Zahl zu viel Zeit in Anspruch nehmen.
Hier ist die Quelle des zweiten Bildes.Dieser Reddit-Beitrag von 2016bringt nichts hilfreiches.
Antwort1
Ich muss zustimmenAntwort von music2myear.
Mit jedem Computer, auf den Sie Zugriff hätten, könnten Sie nichts Sinnvolles tun, wenn Sie handschriftliche Aufzeichnungen in Excel übertragen würden.
Es gibt mindestens drei schwierige Aufgaben:
- Unterscheiden zwischen „Inhalt“ und Nicht-Inhalt.
- Erkennen des Layouts und Übersetzen in Zellpositionen.
- Erkennen der handschriftlichen Zeichen und Übersetzen in Text.
Es gibt Verbrauchersoftware und Onlinedienste, mit denen maschinengedruckter Text im sauberen Tabellenformat recht gut in eine Tabellenkalkulationsdatei umgewandelt werden kann. Aber selbst die besten sind weit von der Perfektion entfernt. Es geht lediglich darum, Text anhand seiner Position der richtigen Zelle zuzuweisen.
Wenn Sie sich diese Bilder ansehen, kann Ihr Gehirn sehr gut unterscheiden, was „vorgedruckte Form“, was Inhalt, was Rauschen und was menschliche Markierungen sind, die nicht relevant sind. Sie können anhand des Kontexts erkennen, wie Dinge ausgerichtet sind und was zu was passt. Für den Computer ist alles, was nicht die Hintergrundfarbe ist, „etwas“. Herauszufinden, was davon für Sie wichtig ist und was möglicherweise eine Art von Zeichen sein könnte, das übersetzt werden muss, ist äußerst schwierig. Und wenn der Inhalt vorgedruckte Zeilen überlappt, entstehen Umbrüche und fehlende Daten, die der Computer nicht leicht verarbeiten kann.
Nehmen Sie zum Beispiel Ihre Bilder. Das erste Bild ist ein hoffnungsloser Fall. Vieles davon ignoriert die Linien und das Layout. Sie hätten die zusätzliche Aufgabe, das vorgedruckte Raster vom Inhalt zu trennen und zu entfernen. Im zweiten Bild befindet sich der Inhalt größtenteils innerhalb der Grenzen des Rasters, aber es gibt viele vereinzelte Markierungen (Schrägstriche, Unterstreichungen usw.), die bereinigt werden müssten.
Der schwierigste Teil ist jedoch das Erkennen von Handschrift und deren Umwandlung in Computertext. Bei Bild 1 hätten sogar Menschen Probleme, herauszufinden, was einiges davon ist, und es wäre viel Raten auf der Grundlage des Kontexts und der Vertrautheit mit den Wörtern erforderlich. In Bild 2 sind die meisten Zahlen nicht so schlecht, aber der Text wäre ein Problem.
Wenn die Aufzeichnungen Ihrer Großeltern nicht kursiv, sondern sauber, leserlich, einheitlich und maschinenschriftlich sind, kann OCR sie möglicherweise „angemessen“ bearbeiten. Aber Sie hätten trotzdem noch viel zu bereinigen.
Zur Veranschaulichung: Der US-Postdienst verfügt über einige der fortschrittlichsten Handschrifterkennungssysteme, mit denen er Adressen auf Postsendungen liest, damit diese mit automatisierten Geräten sortiert werden können. Dies ist nur möglich, weil die Adressen eine vorgeschriebene Struktur und ein vorgeschriebenes Format haben und der Postdienst jede mögliche Adresse im Voraus kennt. Das Ziel besteht eher darin, die handgeschriebenen Adressen mit möglichen Kandidaten abzugleichen, als jedes Zeichen richtig zu schreiben.
Es gibt jede Menge Redundanz. Wenn Sie nur die Hälfte der Zeichen entziffern können, gibt es möglicherweise trotzdem nur eine oder wenige mögliche Übereinstimmungen. Und selbst dann ist bei einem erheblichen Teil menschliches Eingreifen erforderlich. Wenn dies erledigt ist und die Post zur Zustellung beim Zusteller ankommt, kennt dieser die Adressen und Namen auf seiner Route und überprüft alles, um sicherzustellen, dass die Adressen nicht falsch interpretiert wurden.
Dies ist das Niveau der OCR für Handschriften mit modernster Technologie und einem äußerst kontrollierten Bereich von Vergleichsmöglichkeiten. Ihre Aufgabe muss jedes Zeichen übersetzen. Sie haben keine Hauptliste aller Wörter, die legitimerweise in diesen Datensätzen enthalten sein könnten (außer einem Wörterbuch der gesamten Sprache). OCR würde so viel Bereinigung erfordern, dass es schneller wäre, die Datensätze einfach zu lesen und in Excel einzugeben. Das ist keine ungewöhnliche Aufgabe, und professionelle Dateneingabefachleute können dies ziemlich schnell und kostengünstig erledigen.
Antwort2
Damit können Sie das nicht.
Oder Sie können versuchen, entsprechende Tools namens „OCR“ (für „Optical Character Recognition“) zu verwenden. Diese basieren jedoch auf Algorithmen, die möglichst genaue Schätzungen der dargestellten Zeichen abgeben, und aufgrund der Beschaffenheit Ihrer Eingaben ist es SEHR UNWAHRSCHEINLICH, dass Sie ein zufriedenstellendes Ergebnis erzielen.
Selbst mit den besten Tools, die heute auf dem Verbraucher- und Unternehmensmarkt erhältlich sind, müssen Sie letztlich fast alle Daten manuell korrigieren oder selbst eingeben.
Computer werden zwar immer besser, aber sie sind dem menschlichen Auge und Gehirn bei der Interpretation dieser Art von Informationen noch immer weit unterlegen, zumindest auf dem Niveau der Computer und Software, die Ihnen und mir zur Verfügung stehen.