PDF를 전자책 형식으로 변환하는 방법

PDF를 전자책 형식으로 변환하는 방법

PDF 문서를 epub, azw 또는 mobi와 같은 eBook 형식으로 변환하는 방법이 있습니까? 변환 속도가 빠른 애플리케이션을 찾고 있습니다. 방금 칼리버를 사용해 보았습니다. 10분 후에는 전환율이 2%에도 도달하지 않았습니다. 그러니 구경하지 마십시오. CLI가 선호됩니다.

답변1

나는 일반적으로 사용구경, 다양한 형식(epub, mobi 및 pdf)에서 변환합니다. 이를 사용하여 변환하는 것은 매우 간단합니다. 여기 스크린샷이 있습니다.다른 사람그리고비디오 튜토리얼또한.

스크린샷

   ss 구경

답변2

시도해 보세요 pdftotext(패키지의 Ubuntu 아래에 있음 poppler-utils). 명령줄 변환기입니다. PDF에는 텍스트가 있고 이미지로만 구성되지는 않는다고 가정합니다.

PDF 파일이 OCR 정보 없이 이미지로 구성된 경우 훨씬 느린 OCR 솔루션을 선택해야 합니다.

나는 스크램블된 PDF 텍스트에도 OCR 방법을 성공적으로 사용했습니다(비선형 방식으로 페이지에 개별 문자를 배치함으로써). 그런 다음 예를 들어 pdftoppm페이지의 개별 이미지를 얻고 이를 OCR하는 데 사용합니다 .

답변3

PDF 파일에 대해 이 작업을 한 번 수행해야 했고 결과는 다음과 같습니다(poppler의 pdftohtml 사용).

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

Zip을 Calibre에 공급하고 EPUB로 변환합니다. 모든 CSS 속성(예: 색상, 글꼴)을 필터링합니다.

모든 PDF 파일은 서로 다르기 때문에 확실한 해결책은 없습니다. 위의 내용은 하나의 특정 사례에 적용되었습니다. 약한 pdftohtml/pdftotext를 사용한 다음 필요에 맞게 출력을 조정해야 합니다.

이것이 실패하여 OCR에 의존해야 한다면 설형 문자를 사용하면 운이 좋았을 것입니다. 하지만 tesseract, ocrad, gocr도 시도해 보세요. 그러나 좋은 결과를 얻으려면 모두 육체 노동이 필요합니다.

관련 정보