Wie bringe ich Tesseract bei, die durch die Rechtschreib- und Grammatikfehlererkennung hinzugefügten Wellenlinien zu ignorieren?

Wie bringe ich Tesseract bei, die durch die Rechtschreib- und Grammatikfehlererkennung hinzugefügten Wellenlinien zu ignorieren?

Ich verwende Tesseract, um Text in verschiedenen Bildtypen zu erkennen, einschließlich Screenshots. Die wellenförmigen roten und blauen Unterstreichungen bei Rechtschreib- und Grammatikwarnungen, wie im Beispiel unten, verwirren mich. Am Ende bekomme ich entweder keinen Text oder ein wirres Durcheinander.

Bildbeschreibung hier eingeben

Ich habe mir Möglichkeiten angesehen, diese Linien in der Vorverarbeitung von ImageMagick zu entfernen, und hatte damit einiges an Erfolg, aber diese Methoden löschen jeden Text, der rot oder blau ist, was unerwünscht ist – außerdem dauern sie sehr lange und ich muss über 100.000 Bilder pro Tag verarbeiten. Ich denke, dass es vielleicht eine Möglichkeit gibt, Tesseract zu trainieren, diese Linien zu erkennen und zu verwerfen, aber ich bin nicht sicher, wie das funktionieren würde.

Ich habe Tutorials gesehen, wie man Tesseract trainiert, Text zu erkennen, aber ich habe nichts darüber gesehen, wie man trainiert, etwas zu erkennen, das kein Text ist. Gibt es eine Möglichkeit, Tesseract zu trainieren oder etwas mit dem von ihm verwendeten Leptonica-Setup zu tun, um diese Zeilen zu ignorieren?

Wenn jemand damit erfolgreich umgegangen ist, lassen Sie es mich bitte wissen. Was wäre ansonsten die empfohlene Vorgehensweise?

Antwort1

Ich versuche gerade zu lernen, wie man Tesseract unterrichtet (ich weiß nicht, wie man LSTM-Dateien für das Training erstellt), aber ich weiß, dass man seine trainierten Daten feinabstimmen kann. Ich verwendejTessBoxEditorzum Korrigieren der Fehler, die Tesseract während der OCR macht. Ich habe einfach noch keine Möglichkeit gefunden, die Änderungen in Form eines Trainings zu implementieren, aber ich denke, dieses Tool ist genau das, was Sie brauchen.

Mit jTessBoxEditor können Sie sehen, wie die OCR auf Ihrem Bild durchgeführt wird, und Sie können es auch bearbeiten, aber ich weiß immer noch nicht, wie ich das Training implementieren soll (warte immer noch auf eine Antwort im Forum und auch hier), also kann ich nicht wirklich mehr helfen, denn so weit bin ich gekommen und ich würde nicht erwarten, dass jemand Ihre Frage beantwortet, da sie 2 Jahre alt ist, also ist Ihr Setup wahrscheinlich schon veraltet. Ich versuche es mit Tesseract-OCR 4.* und das Unterrichten in der neuen Version hat sich stark verändert, aber auch die Tools haben sich weiterentwickelt, also ist Ihr Problem mit jTessBoxEditor lösbar, aber ich weiß nicht, wie ich es implementieren soll, also ist dies keine wirkliche Antwort, sondern nur eine Teilantwort.

Ich hoffe, ich konnte Ihnen helfen, wenn auch nur ein bisschen.

verwandte Informationen