Cómo convertir pdf a formato de libro electrónico

Cómo convertir pdf a formato de libro electrónico

¿Existe alguna forma de convertir un documento PDF a un formato de libro electrónico como epub, azw o mobi? Estoy buscando una aplicación que sea rápida en conversión. Acabo de probar calibre. Después de 10 minutos no se ha alcanzado ni siquiera el 2% de la conversión. Así que, por favor, no hay calibre. Se prefiere CLI.

Respuesta1

Yo generalmente usoCalibre, para convertir desde los distintos formatos (epub, mobi y pdf). Es bastante sencillo convertir con él, aquí hay una captura de pantalla, hayotrosy unvídeotutorialtambién.

captura de pantalla

   ss de calibre

Respuesta2

Deberías intentarlo pdftotext(viene en Ubuntu en el paquete poppler-utils). Es un convertidor de línea de comandos. Se supone que el PDF tiene texto y no consta únicamente de imágenes.

Si el archivo PDF consta de imágenes (sin información de OCR), debes optar por una solución de OCR, que es mucho más lenta.

También utilicé con éxito el método OCR en texto PDF que estaba codificado (colocando los caracteres individuales en una página de forma no lineal). Luego se utiliza, por ejemplo, pdftoppmpara obtener imágenes individuales de las páginas y realizar OCR.

Respuesta3

Tuve que hacer esto para un archivo PDF una vez, y este fue el resultado (usando pdftohtml de poppler):

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

Introduzca el zip en Calibre y conviértalo a EPUB. Filtre todas las propiedades CSS (como colores, fuentes).

Cada archivo PDF es diferente; no existe una solución definitiva. Lo anterior funcionó para un caso específico: debe debilitar pdftohtml/pdftotext y luego modificar la salida para que se ajuste a sus necesidades.

Si esto falla y tienes que recurrir al OCR, he tenido suerte con la escritura cuneiforme. Pero prueba también con tesseract, ocrad, gocr. Sin embargo, todos ellos requieren mano de obra para obtener un buen resultado.

información relacionada