Wie kann ich aus gescannten Seiten erstellte PDFs *automatisch* entzerren und zuschneiden?

Wie kann ich aus gescannten Seiten erstellte PDFs *automatisch* entzerren und zuschneiden?

Mögliches Duplikat:
Mit welcher kostenlosen Software kann ich gescannte Bilder gerade rücken?

Ich habe mehrere PDFs, die aus Scans von Buchseiten bestehen. Die Scans bestehen aus jeweils zwei Seiten und einige dieser Scans sind verzerrt, sodass der Text leicht geneigt erscheint.

Ich suche nach einem Tool, mit dem ich eine automatische Optimierung durchführen kann, indem ich die Scans entzerre, ohne die Lesbarkeit zu beeinträchtigen. Ich habe die GPL-Software gefundenBrissum die Scans zuzuschneiden, um ein Seitenverhältnis von 1:1 statt 2:1 zu erhalten, aber ich habe kein Werkzeug, um die Seiten geradezurichten.

Ich bin gestolpert überPapier abziehen, ein weiteres Open-Source-Tool, das für das, was ich tun möchte, perfekt zu sein scheint, aber dieses Tool ist nur für Linux und funktioniert nicht direkt mit PDF-Dateien.

Jeder Hinweis ist willkommen.

Antwort1

Schauen Sie sich angeraderücken. Es ist ein Kommandozeilentool. Die heruntergeladene *zip-Datei scheint Binärdateien für Windows, MacOSX und Linux zu enthalten.

Die Lizenz ist MPL (Mozilla) oder LPGL (GNU), je nachdem, was Sie bevorzugen.

Der einzige Nachteil für Sie scheint zu sein, dass es keine PDFs, sondern nur PNG- und TIFF-Bilder (soweit ich weiß) verarbeitet. Das bedeutet, dass Sie einen Workflow wie diesen einrichten müssen:

 PDF.orig -> PNG.orig -> PNG.deskewed -> PDF.deskewed

Ich habe es (noch) nicht selbst getestet, bin erst kürzlich auf die Website gestoßen und habe sie mir als Lesezeichen gespeichert.

Antwort2

Oh, ich möchte noch eine Antwort hinzufügen. Mir fiel gerade einnetpbm. Ich habe es jahrelang nicht benutzt, aber ich denke, ich sollte es mir noch einmal ansehen ...

netpbm ist ein sehr leistungsfähiges Toolkit für die Kommandozeile zur Bearbeitung von Grafikbildern. Es enthält fast 300 einzelne Tools. Es enthält Konverter für etwa 100 Grafikformate.

Außerdem verfügt es über ein Befehlszeilentool zum Drehen von Bildern:

pnmrotate

Und es verfügt über ein weiteres Tool, das versucht, den Winkel gedrehter Bilder zu ermitteln:

pamtilt

pamtiltgibt eine Gleitkommazahl zurück, die die geschätzte Bildrotation angibt. Damit sollte die automatische Entzerrung von Bildern in Reichweite sein. Dafür könnte man ein Shell-Skript schreiben. Dafür wären verschiedene Schritte erforderlich:

  1. Konvertieren Sie PDF-Seiten mit Hilfe von Ghostscript in ein netpbm-geeignetes Bildformat.
  2. Wird verwendet pamtilt, um den Schrägwinkel des Bildes automatisch zu erkennen.
  3. pnmrotateZum Entzerren des Bildes verwenden .
  4. Konvertieren Sie das Bild erneut in PDF.

Wenn Sie mir Zugriff auf eine kleine Auswahl Ihrer PDF-Dateien gewähren, könnte ich versuchen, ein Shell-Skript zu entwickeln, um das Kunststück zu vollbringen.


(Ich wundere mich sehr, dass [netpbm] hier auf dem Superuser+Stackoverflow anscheinend kein Tag hat.)

verwandte Informationen