
Existe uma maneira de converter um documento PDF em formato de e-book, como epub, azw ou mobi? Estou procurando um aplicativo que tenha conversão rápida. Acabei de experimentar o calibre. Após 10 minutos, nem 2% da conversão foi alcançada. Então, por favor, sem calibre. CLI é preferido.
Responder1
Eu geralmente usoCalibre, para converter de vários formatos (epub, mobi e pdf). É muito simples converter com ele, aqui está uma captura de tela, háoutrose umvídeo tutorialtambém.
captura de tela
Responder2
Você deveria tentar pdftotext
(vem no Ubuntu no pacote poppler-utils
). É um conversor de linha de comando. Pressupõe que o PDF contém texto e não consiste apenas em imagens.
Se o arquivo PDF consistir em imagens (sem informações de OCR), você deverá optar por uma solução de OCR, que é muito mais lenta.
Também usei com sucesso o método OCR em texto PDF embaralhado (posicionando os caracteres individuais em uma página de maneira não linear). Então você usa, por exemplo, pdftoppm
para obter imagens individuais das páginas e fazer o OCR delas.
Responder3
Eu tive que fazer isso uma vez para um arquivo PDF e este foi o resultado (usando pdftohtml do poppler):
#!/bin/bash
pwddir="`pwd`"
tmpdir="`mktemp -d`"
pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index
cd "$tmpdir"
sed -e :a -e '$!N;s/\n/ /;ta' \
-i index.html
sed -e 's@ @ @g' \
-e 's@<hr>@ @g' \
-e 's@<br/>\s*<br/>@</p><p>@g' \
-e 's@<br/>@ @g' \
-i index.html
tidy -utf8 -i -wrap 9999999 -m index.html
sed -e 's@<a name="[^"]*"></a>@@g' \
-i index.html
rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *
Alimente o zip para o Calibre e converta para EPUB. Filtre todas as propriedades CSS (como cores, fontes).
Cada arquivo PDF é diferente – não existe uma solução definitiva. O procedimento acima funcionou para um caso específico - você precisa enfraquecer o pdftohtml/pdftotext e depois ajustar a saída para atender às suas necessidades.
Se isso falhar e você precisar recorrer ao OCR, tive sorte com o cuneiforme. Mas tente também tesseract, ocrad, gocr. Porém todos eles requerem trabalho manual para um bom resultado.