Automatische Konvertierung von PDF in ein blindlesbares Format

Automatische Konvertierung von PDF in ein blindlesbares Format

Ich habe einen blinden Freund und ein PDF, das ich ihm gern zum Lesen geben möchte.

Das PDF besteht aus etwa 200 Seiten schön gestaltetem Text (mit einigen Bildern und Abbildungen, die Text enthalten, aber diese sind selten genug, um bei der manuellen Bereinigung erkannt zu werden). Leider ist die logische Struktur des PDF schlecht dargestellt: Das PDF erkennt seinen zweispaltigen Textfluss nicht und keiner der Index- und Inhaltsverzeichniseinträge ist tatsächlich ein Link.

Ich habe problemlosen Zugriff auf eine Linux-Maschine und etwas weniger problemlosen Zugriff auf eine Windows XP-Maschine und kenne mich mit regulären Ausdrücken und Skriptsprachen zur Automatisierung der Nachbearbeitung aus.

Bisher habe ich einen Weg gefunden, das PDF vertikal zu halbieren (mit Code vonhttp://snipplr.com/view/18924/split-crop-double-page-pdfs-in-two/, nachdem das PDF in PDF1.4 konvertiert wurde, damit es keinen Crossrefstream oder wie auch immer es genannt wurde enthält), sodass der Großteil des Inhalts in der richtigen Reihenfolge ist, und dann wird verwendet, pdftohtmlum den Text mit einigen Markierungen zu extrahieren. Leider kann dies die logische Struktur des Dokuments nicht reproduzieren (es erkennt einige Kursivmarkierungen, verliert aber bereits alle Überschriften von Kapiteln, Abschnitten und Unterabschnitten, die immer durch konsistente Verwendung von Schriftgröße und Farbe hervorgehoben werden, von Absatzumbrüchen usw. ganz zu schweigen).

Ich hatte große Hoffnungen inKaliber, aber dieses Konvertierungstool kann auch nicht mit schlecht markierten zweispaltigen PDFs umgehen und kann auch keine Struktur aus den verwendeten Schriftarten ableiten, obwohl es einige Vorteile beim Zusammenhalten von Absätzen hat.

Wie konvertiere ich mein PDF in ein für Blinde zugängliches Format?

verwandte Informationen