Tesseract OCR: Nicht unterstützter Bildtyp

Tesseract OCR: Nicht unterstützter Bildtyp

Ich habe die PDF-Datei mit den folgenden Befehlen im Terminal in eine TIF-Datei konvertiert

convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif

convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif

Dann habe ich versucht, den Befehl auszuführen makebox,

tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox

was den folgenden Fehler erzeugte:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.

Und unter der Annahme, dass es etwas damit zu tun hat libtiff, habe ich den Befehl ausgeführt tesseract -vund festgestellt (oder vermutet), dass es fehlt

tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5

Es kommt dasselbe heraus, auch wenn ich lib tiff deinstalliere und neu installiere. Ich bin mir nicht sicher, was ich hier übersehe. Bitte um Rat!

brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff

Ausgabe des Befehlsbrew info leptonica Hier

Bearbeitung #1

Habe diese TIFF-Datei erstellt, GhostScriptdie denselben Fehler zurückgibt, wenn ich versuche, makeboxden Befehl auszuführen. Vielleicht übersehe ich noch etwas? Ich habe etwa 50+ als Schriftgröße eingestellt, ist das in Ordnung?

https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip(~4 MB)

Bearbeitung #2

Ich habe eine TIF-Seite mit erstellt GhostScript, aber es funktioniert nicht??

https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip(~60 KB)

Antwort1

Ich schätze, du folgstMichael Lissners Beitragum Tesseract eine benutzerdefinierte Schriftart hinzuzufügen.

Ich habe dasselbe (den convertBefehl) versucht und bekam ein beschädigtes TIFF, das mit keiner Anwendung geöffnet werden konnte.

Also habe ich mich für die GUI-Alternative entschieden. Ich habe meinen Text in Scribus geschrieben (weil ich damit den Abstand zwischen den Zeichen vergrößern konnte) und ihn dann direkt als TIFF aus demDatei-Export-Als Bild speichernMenü. Ich habe eine Auflösung von 300 DPI gewählt.

Was Sie sonst noch versuchen können:

  • GIMP öffnet PDFs, die als TIFF gespeichert werden können
  • Ghostscript: gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>(konvertiert ggf. alle Seiten)

Welche weiteren Probleme können auftreten:

  • Linux: Wenn Sie die Repo-Version von Tesseract installiert haben (zumindest in Ubuntu), verfügen Sie nicht über die erforderlichen ausführbaren Dateien: unicharset_extractorund mftraining(oder sie sind nicht im Pfad, da das Paketschließen Sie sie ein).

verwandte Informationen