
有沒有辦法將 PDF 文件轉換為 epub、azw 或 mobi 等電子書格式?我正在尋找一個轉換速度快的應用程式。我剛剛嘗試過口徑。 10 分鐘後,轉換率甚至還沒有達到 2%。所以請不要口徑。 CLI 是首選。
答案1
答案2
你應該嘗試一下pdftotext
(在軟體包中的 Ubuntu 下poppler-utils
)。它是一個命令列轉換器。它假設 PDF 包含文字並且不僅僅包含圖像。
如果 PDF 檔案包含影像(沒有 OCR 資訊),則必須採用 OCR 解決方案,這要慢得多。
我也成功地對擾亂的 PDF 文字使用了 OCR 方法(透過以非線性方式將單個字元定位在頁面上)。然後您可以使用egpdftoppm
來獲取頁面的各個圖像並對這些圖像進行OCR。
答案3
我必須對 PDF 文件執行一次此操作,結果如下(使用 poppler 中的 pdftohtml):
#!/bin/bash
pwddir="`pwd`"
tmpdir="`mktemp -d`"
pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index
cd "$tmpdir"
sed -e :a -e '$!N;s/\n/ /;ta' \
-i index.html
sed -e 's@ @ @g' \
-e 's@<hr>@ @g' \
-e 's@<br/>\s*<br/>@</p><p>@g' \
-e 's@<br/>@ @g' \
-i index.html
tidy -utf8 -i -wrap 9999999 -m index.html
sed -e 's@<a name="[^"]*"></a>@@g' \
-i index.html
rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *
將 zip 檔案輸入 Calibre 並轉換為 EPUB。過濾所有 CSS 屬性(例如顏色、字體)。
每個 PDF 文件都是不同的 - 沒有明確的解決方案。上面的方法適用於一種特定情況 - 您必須弱化 pdftohtml/pdftotext,然後調整輸出以滿足您的需求。
如果失敗,您必須求助於 OCR,我在楔形文字方面運氣不錯。但也可以試試 tesseract、ocrad、gocr。然而,所有這些都需要手工勞動才能獲得良好的結果。