So extrahieren Sie mit Cuneiform im Terminal Text aus einer bildbasierten PDF-Datei

So extrahieren Sie mit Cuneiform im Terminal Text aus einer bildbasierten PDF-Datei

Keilschrift -l eng -f Text -o outocr.txt Eingabe.pdf

Wenn der obige Befehl im Terminal ausgeführt wird, wird nur der Text meiner PDF-Titelseite in die Datei outocr.txt ausgegeben. Was muss ich tun, damit der gesamte Text in der 120-seitigen PDF-Datei erkannt wird? Ich verwende Fedora Linux 25 (x86_64).

Antwort1

Dieser Beitrag enthält ein Beispielskript zum Durchlesen vieler einzelner Seiten und zum Erstellen einer mehrseitigen PDF-Datei. Cuneiform allein erstellt keine mehrseitigen Dokumente. Wie extrahiere ich mit OCR Text aus einer PDF unter Linux?

verwandte Informationen