Tesseract OCR: Nicht unterstützter Bildtyp

Question

Ich schätze, du folgstMichael Lissners Beitragum Tesseract eine benutzerdefinierte Schriftart hinzuzufügen.

Ich habe dasselbe (den convertBefehl) versucht und bekam ein beschädigtes TIFF, das mit keiner Anwendung geöffnet werden konnte.

Also habe ich mich für die GUI-Alternative entschieden. Ich habe meinen Text in Scribus geschrieben (weil ich damit den Abstand zwischen den Zeichen vergrößern konnte) und ihn dann direkt als TIFF aus demDatei-Export-Als Bild speichernMenü. Ich habe eine Auflösung von 300 DPI gewählt.

Was Sie sonst noch versuchen können:

GIMP öffnet PDFs, die als TIFF gespeichert werden können
Ghostscript: gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>(konvertiert ggf. alle Seiten)

Welche weiteren Probleme können auftreten:

Linux: Wenn Sie die Repo-Version von Tesseract installiert haben (zumindest in Ubuntu), verfügen Sie nicht über die erforderlichen ausführbaren Dateien: unicharset_extractorund mftraining(oder sie sind nicht im Pfad, da das Paketschließen Sie sie ein).

Answer 1