Cómo convertir pdf a formato de libro electrónico

Question 1

Yo generalmente usoCalibre, para convertir desde los distintos formatos (epub, mobi y pdf). Es bastante sencillo convertir con él, aquí hay una captura de pantalla, hayotrosy unvídeotutorialtambién.

captura de pantalla

ss de calibre

Answer

Yo generalmente usoCalibre, para convertir desde los distintos formatos (epub, mobi y pdf). Es bastante sencillo convertir con él, aquí hay una captura de pantalla, hayotrosy unvídeotutorialtambién.

captura de pantalla

ss de calibre

Question 2

Deberías intentarlo pdftotext(viene en Ubuntu en el paquete poppler-utils). Es un convertidor de línea de comandos. Se supone que el PDF tiene texto y no consta únicamente de imágenes.

Si el archivo PDF consta de imágenes (sin información de OCR), debes optar por una solución de OCR, que es mucho más lenta.

También utilicé con éxito el método OCR en texto PDF que estaba codificado (colocando los caracteres individuales en una página de forma no lineal). Luego se utiliza, por ejemplo, pdftoppmpara obtener imágenes individuales de las páginas y realizar OCR.

Answer

Deberías intentarlo pdftotext(viene en Ubuntu en el paquete poppler-utils). Es un convertidor de línea de comandos. Se supone que el PDF tiene texto y no consta únicamente de imágenes.

Si el archivo PDF consta de imágenes (sin información de OCR), debes optar por una solución de OCR, que es mucho más lenta.

También utilicé con éxito el método OCR en texto PDF que estaba codificado (colocando los caracteres individuales en una página de forma no lineal). Luego se utiliza, por ejemplo, pdftoppmpara obtener imágenes individuales de las páginas y realizar OCR.

Question 3

Tuve que hacer esto para un archivo PDF una vez, y este fue el resultado (usando pdftohtml de poppler):

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@&#160;@ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

Introduzca el zip en Calibre y conviértalo a EPUB. Filtre todas las propiedades CSS (como colores, fuentes).

Cada archivo PDF es diferente; no existe una solución definitiva. Lo anterior funcionó para un caso específico: debe debilitar pdftohtml/pdftotext y luego modificar la salida para que se ajuste a sus necesidades.

Si esto falla y tienes que recurrir al OCR, he tenido suerte con la escritura cuneiforme. Pero prueba también con tesseract, ocrad, gocr. Sin embargo, todos ellos requieren mano de obra para obtener un buen resultado.

Answer

Tuve que hacer esto para un archivo PDF una vez, y este fue el resultado (usando pdftohtml de poppler):

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@&#160;@ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

Introduzca el zip en Calibre y conviértalo a EPUB. Filtre todas las propiedades CSS (como colores, fuentes).

Cada archivo PDF es diferente; no existe una solución definitiva. Lo anterior funcionó para un caso específico: debe debilitar pdftohtml/pdftotext y luego modificar la salida para que se ajuste a sus necesidades.

Si esto falla y tienes que recurrir al OCR, he tenido suerte con la escritura cuneiforme. Pero prueba también con tesseract, ocrad, gocr. Sin embargo, todos ellos requieren mano de obra para obtener un buen resultado.

Cómo convertir pdf a formato de libro electrónico

Respuesta1

captura de pantalla

Respuesta2

Respuesta3

información relacionada