Ich möchte Papierdokumente in PDF-Dateien scannen und den Text durchsuchbar machen können. Ich glaube, das Programm Tesseract kann dabei helfen, weiß aber nicht, wie ich anfangen soll und welches Programm dafür am besten geeignet ist.
Erstellt irgendjemand erfolgreich durchsuchbare PDF-Dateien?
Antwort1
Ich kann empfehlen ocrmypdf
, siehehttps://github.com/ocrmypdf/OCRmyPDF, ebenfalls für Ubuntu gepackt. Sie können es installieren, indem Sie Folgendes ausführen:
sudo apt install ocrmypdf
Sie können es wie folgt verwenden:
ocrmypdf -l eng infile.pdf outfile.pdf
Der ocrmypdf
obige Aufruf ist ein einfacher Aufruf, der die Dokumentsprache als Englisch angibt ( -l eng
). Es gibt viele Optionen in derman
Seite; vielleicht möchten Sie sie bei Bedarf im Laufe der Zeit entdecken.