
Ich habe ein PDF, das aus vielen gescannten Seiten besteht. Ein Beispielausschnitt des Textes wird unten angezeigt (keine Sorge wegen der Privatsphäre, da dies ein öffentlich zugängliches Dokument ist). Wie Sie sehen, ist es sehr schwer zu lesen.
Ich möchte ein Programm ausführen, das diese PDF-Datei lesen, den Text bestimmen und eine Datei mit dem Text ausgeben kann (Textdatei, Markdown, Linux-Datei ohne Suffix, sogar eine andere bereinigte PDF-Datei, alles ist möglich), damit sie für mich und andere leichter lesbar ist. Abgesehen von Dingen wie der richtigen Anordnung der Sätze lege ich keine großen Wert auf die Formatierung.
Ich habe pdftotext ausprobiert, aber es hat eine Datei ausgegeben, die (in einem Texteditor) immer wieder nur „^L^L^L“ zu sein scheint. Ich habe auch ocrmypdf ausprobiert, aber das hat auch nicht funktioniert (obwohl ich nicht sicher bin, ob ich es richtig verwendet habe). Zu den Komplikationen gehören die relative „Schmutzhaftigkeit“ der Bilder, dass der Text verschiedene Tippfehler, zusätzliche Leerzeichen und falsch geschriebene Wörter enthält. Welche anderen Optionen (unter Linux verwendbar) schlagen Sie vor, um den Text aus diesem Dokument zu extrahieren?
Antwort1
Die Ausgabe vonKostenlose OCRunter Verwendung der älterenTesseract OCR-Engine v. 5.1, ist unten. Dies warnichtweder durch Anpassen der Bildparameter (z. B. Kontrast) noch durch Auswahl einer bestimmten Schriftart (wahrscheinlich wurde eine Schriftart mit fester Breite verwendet) noch durch Auswahl einer der Trainingsvokabeldateien (oder durch Erstellen einer neuen mit themenspezifischen Wörtern wie „Aronburg“) optimiert werden, und diese Änderungen würden es zweifellos verbessern.
Wenn dies dernurWenn Sie jedoch mehr Bilder haben, können Sie die OCR-Einstellungen optimieren, um bessere Ergebnisse zu erzielen.
eae lulUlUlUllCU
" fast zerstört, und Angolanische nat
EINFÜHRUNG?
Diese Beschreibung des großen Krieges und ihrer Folgen ist vielleicht die großartigste, die je von einem Autor über einen sagenhaften Krieg geschrieben wurde, der mit einem solchen Namen betitelt werden könnte. Der Krieg dauerte laut dieser Geschichte etwa sieben Jahre, und der Autor dieses Buches hat über elf Jahre damit verbracht, die langen und anschaulichen Einzelheiten niederzuschreiben, und hat von Tag zu Tag gekämpft, um zu gewinnen.
denn obwohl Christus in diesem langen und blutigen Krieg auf seiner Seite war und obwohl der Christustanz aufgrund eines seltsamen Aronburg-Mysteriums von einer Niederlage bedroht war |" |
Das Problem konnte niemand lösen, nicht einmal ich allein. Schließlich siegten sie, als sie in der furchtbaren Schlacht bei Aronburg das Blatt gegen den Feind wendeten: .
Tho Aronurg uystery so voll wie der Mord an dem Aronburg Kind, hatte Bedrohung ein mein
enod das Schicksal der drei christlichen Staaten, für die gesamte Dauer des großen Glandco Angolinischen Krieges, und es wurde vorhergesagt, dass die Aufklärung des Aronburg-Wahnsinns oder die Rache ihrer „Attentäter“ die einzige Hoffnung war – für jede Chance der christlichen Nation, den Draht zu gewinnen, gelang es Abbieannia, Glondelinin selbst zu vernichten, nachdem Claverinia ruiniert worden war, und „
Gon wird in Hor Anaios ausgelöscht
Antwort2
Dies wird für eine einzelne Person wahrscheinlich mindestens vier Jahre und sieben Monate dauern, oder mit etwas Glück nur elf Jahre. Die beste Lösung ist, zu sehen, ob es möglich ist, diesen „Klassiker“ in einer Gruppe von Ghostwritern zu schreiben (oder die Wohltätigkeitsabteilung von Google zu belästigen), aber Sie müssen Grundregeln haben, wie die Rechtschreibfehler beibehalten werden sollen.
Nur die früheren Seiten sind maschinengeschrieben und viele spätere sind monochrom und müssten daher erneut in Graustufen gescannt werden, um eine OCR- oder menschliche Transkription zu ermöglichen.