Anwenden von Metadaten auf Dateien basierend auf der OCR ihres Inhalts

Anwenden von Metadaten auf Dateien basierend auf der OCR ihres Inhalts

Im Wesentlichen suche ich nach einem Tool (Windows/Mac), das mir folgenden Arbeitsablauf ermöglicht:

  1. ALLE meine Dokumente in einen Ordner scannen (200-300 gescannte Bilder)
  2. Führen Sie das Tool aus, das alle Dateien durchsucht und eine OCR-Prüfung durchführt.
  3. Basierend auf der OCR werden Metadaten auf jede Datei angewendet.
  4. Anschließend lese ich die Metadaten und kategorisiere die Dateien entsprechend über einen Batchprozess.

Obwohl es in SU und SE einige Vorschläge für einfaches OCR bei Dateien gibt, konnte ich keine Lösung finden, die es mir im Wesentlichen ermöglicht, programmierbare Aufgaben auf Grundlage der OCR-Daten aus den Dokumenten auszuführen.

Die Dokumentvorlage ist Standard, sodass wir wissen, welche Art von Datei uns erwartet. Wir möchten einfach den ganzen Haufen scannen und dann einen Backend-Prozess ausführen, der die Dateien ordentlich kategorisiert/in die entsprechenden Ordner hochlädt. Durch die OCR-Erkennung habe ich die Möglichkeit, in der Datei zu suchen, während ich sie in einem Programm wie Acrobat Reader/Preview öffne. Aber ich möchte diese Kategorisierungslogik von einem Batch-/Shell-/Apple-Skript aus ausführen. Dinge wie das Präfixieren der Dokumentnummer vor dem Dateinamen usw.

Antwort1

Was Sie beschreiben, scheint ein einzigartiges Nutzungsszenario zu sein. Ich glaube nicht, dass es Lösungen gibt, die so funktionieren, wie Sie es beschreiben. Wenn es sich um ein nichtkommerzielles/Studienprojekt handelt, haben Sie keine große Auswahl, insbesondere nicht für Windows. Googeln Sie einfach nach Tesseract und schauen Sie, was Sie tun können.

Wenn Sie ein gewisses Budget haben, haben Sie mehrere Möglichkeiten. Es ist nicht ganz klar, ob Sie eine einsatzbereite Lösung oder ein SDK benötigen. Ich gehe davon aus, dass Sie die erste Lösung benötigen. Schauen Sie sich also doch einmal anErkennungsserverist eine serverbasierte OCR-Lösung, die für die Dokumentenverarbeitung mittlerer bis hoher Mengen in großen Abteilungen und Unternehmen entwickelt wurde. Sie kann entweder als eigenständiges Programm eingesetzt oder in ein Drittanbietersystem wie DMS, RMS und elektronisches Archivierungssystem integriert werden.

Ich arbeite bei ABBYY und kann Ihnen bei Bedarf weitere Informationen geben. Ich hoffe, es hilft!

verwandte Informationen