¿Existe alguna forma de convertir un documento PDF a un formato de libro electrónico como epub, azw o mobi? Estoy buscando una aplicación que sea rápida en conversión. Acabo de probar calibre. Después de 10 minutos no se ha alcanzado ni siquiera el 2% de la conversión. Así que, por favor, no hay calibre. Se prefiere CLI.
Respuesta1
Yo generalmente usoCalibre, para convertir desde los distintos formatos (epub, mobi y pdf). Es bastante sencillo convertir con él, aquí hay una captura de pantalla, hayotrosy unvídeotutorialtambién.
captura de pantalla
Respuesta2
Deberías intentarlo pdftotext
(viene en Ubuntu en el paquete poppler-utils
). Es un convertidor de línea de comandos. Se supone que el PDF tiene texto y no consta únicamente de imágenes.
Si el archivo PDF consta de imágenes (sin información de OCR), debes optar por una solución de OCR, que es mucho más lenta.
También utilicé con éxito el método OCR en texto PDF que estaba codificado (colocando los caracteres individuales en una página de forma no lineal). Luego se utiliza, por ejemplo, pdftoppm
para obtener imágenes individuales de las páginas y realizar OCR.
Respuesta3
Tuve que hacer esto para un archivo PDF una vez, y este fue el resultado (usando pdftohtml de poppler):
#!/bin/bash
pwddir="`pwd`"
tmpdir="`mktemp -d`"
pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index
cd "$tmpdir"
sed -e :a -e '$!N;s/\n/ /;ta' \
-i index.html
sed -e 's@ @ @g' \
-e 's@<hr>@ @g' \
-e 's@<br/>\s*<br/>@</p><p>@g' \
-e 's@<br/>@ @g' \
-i index.html
tidy -utf8 -i -wrap 9999999 -m index.html
sed -e 's@<a name="[^"]*"></a>@@g' \
-i index.html
rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *
Introduzca el zip en Calibre y conviértalo a EPUB. Filtre todas las propiedades CSS (como colores, fuentes).
Cada archivo PDF es diferente; no existe una solución definitiva. Lo anterior funcionó para un caso específico: debe debilitar pdftohtml/pdftotext y luego modificar la salida para que se ajuste a sus necesidades.
Si esto falla y tienes que recurrir al OCR, he tenido suerte con la escritura cuneiforme. Pero prueba también con tesseract, ocrad, gocr. Sin embargo, todos ellos requieren mano de obra para obtener un buen resultado.