Wie bringe ich Tesseract bei, die durch die Rechtschreib- und Grammatikfehlererkennung hinzugefügten Wellenlinien zu ignorieren?

Question

Ich versuche gerade zu lernen, wie man Tesseract unterrichtet (ich weiß nicht, wie man LSTM-Dateien für das Training erstellt), aber ich weiß, dass man seine trainierten Daten feinabstimmen kann. Ich verwendejTessBoxEditorzum Korrigieren der Fehler, die Tesseract während der OCR macht. Ich habe einfach noch keine Möglichkeit gefunden, die Änderungen in Form eines Trainings zu implementieren, aber ich denke, dieses Tool ist genau das, was Sie brauchen.

Mit jTessBoxEditor können Sie sehen, wie die OCR auf Ihrem Bild durchgeführt wird, und Sie können es auch bearbeiten, aber ich weiß immer noch nicht, wie ich das Training implementieren soll (warte immer noch auf eine Antwort im Forum und auch hier), also kann ich nicht wirklich mehr helfen, denn so weit bin ich gekommen und ich würde nicht erwarten, dass jemand Ihre Frage beantwortet, da sie 2 Jahre alt ist, also ist Ihr Setup wahrscheinlich schon veraltet. Ich versuche es mit Tesseract-OCR 4.* und das Unterrichten in der neuen Version hat sich stark verändert, aber auch die Tools haben sich weiterentwickelt, also ist Ihr Problem mit jTessBoxEditor lösbar, aber ich weiß nicht, wie ich es implementieren soll, also ist dies keine wirkliche Antwort, sondern nur eine Teilantwort.

Ich hoffe, ich konnte Ihnen helfen, wenn auch nur ein bisschen.

Answer 1

Ich versuche gerade zu lernen, wie man Tesseract unterrichtet (ich weiß nicht, wie man LSTM-Dateien für das Training erstellt), aber ich weiß, dass man seine trainierten Daten feinabstimmen kann. Ich verwendejTessBoxEditorzum Korrigieren der Fehler, die Tesseract während der OCR macht. Ich habe einfach noch keine Möglichkeit gefunden, die Änderungen in Form eines Trainings zu implementieren, aber ich denke, dieses Tool ist genau das, was Sie brauchen.

Mit jTessBoxEditor können Sie sehen, wie die OCR auf Ihrem Bild durchgeführt wird, und Sie können es auch bearbeiten, aber ich weiß immer noch nicht, wie ich das Training implementieren soll (warte immer noch auf eine Antwort im Forum und auch hier), also kann ich nicht wirklich mehr helfen, denn so weit bin ich gekommen und ich würde nicht erwarten, dass jemand Ihre Frage beantwortet, da sie 2 Jahre alt ist, also ist Ihr Setup wahrscheinlich schon veraltet. Ich versuche es mit Tesseract-OCR 4.* und das Unterrichten in der neuen Version hat sich stark verändert, aber auch die Tools haben sich weiterentwickelt, also ist Ihr Problem mit jTessBoxEditor lösbar, aber ich weiß nicht, wie ich es implementieren soll, also ist dies keine wirkliche Antwort, sondern nur eine Teilantwort.

Ich hoffe, ich konnte Ihnen helfen, wenn auch nur ein bisschen.

Wie bringe ich Tesseract bei, die durch die Rechtschreib- und Grammatikfehlererkennung hinzugefügten Wellenlinien zu ignorieren?

Antwort1

verwandte Informationen