So konvertieren Sie PDF in das eBook-Format

So konvertieren Sie PDF in das eBook-Format

Gibt es eine Möglichkeit, ein PDF-Dokument in ein eBook-Format wie epub, azw oder mobi zu konvertieren? Ich suche nach einer Anwendung, die schnell konvertiert. Ich habe gerade Calibre ausprobiert. Nach 10 Minuten waren noch nicht einmal 2% der Konvertierung erreicht. Also bitte kein Calibre. CLI ist vorzuziehen.

Antwort1

Ich verwende im AllgemeinenKaliber, um aus den verschiedenen Formaten (epub, mobi und pdf) zu konvertieren. Es ist ziemlich einfach, damit zu konvertieren, hier ist ein Screenshot, es gibtAndereund einVideoanleitungsowie.

Bildschirmfoto

   SS vom Kaliber

Antwort2

Sie sollten es versuchen pdftotext(ist unter Ubuntu im Paket enthalten poppler-utils). Es handelt sich um einen Kommandozeilenkonverter. Er geht davon aus, dass das PDF Text enthält und nicht nur aus Bildern besteht.

Wenn die PDF-Datei aus Bildern besteht (ohne OCR-Informationen), müssen Sie auf eine OCR-Lösung zurückgreifen, die viel langsamer ist.

Ich habe die OCR-Methode auch erfolgreich bei PDF-Texten angewendet, die verschlüsselt waren (durch nichtlineare Positionierung der einzelnen Zeichen auf einer Seite). Anschließend verwendet man eg, pdftoppmum einzelne Bilder der Seiten zu erstellen und diese einer OCR zu unterziehen.

Antwort3

Ich musste dies einmal für eine PDF-Datei tun, und das war das Ergebnis (mit pdftohtml von Poppler):

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

Geben Sie die Zip-Datei an Calibre weiter und konvertieren Sie sie in EPUB. Filtern Sie alle CSS-Eigenschaften (wie Farben, Schriftarten).

Jede PDF-Datei ist anders – es gibt keine endgültige Lösung. Das oben genannte hat in einem bestimmten Fall funktioniert – Sie müssen pdftohtml/pdftotext schwächen und dann die Ausgabe Ihren Anforderungen entsprechend optimieren.

Wenn dies fehlschlägt und Sie auf OCR zurückgreifen müssen, hatte ich mit Keilschrift etwas Glück. Versuchen Sie aber auch Tesseract, Ocrad und Gocr. Bei allen ist jedoch manuelle Arbeit erforderlich, um ein gutes Ergebnis zu erzielen.

verwandte Informationen