如何將pdf轉換為電子書格式

如何將pdf轉換為電子書格式

有沒有辦法將 PDF 文件轉換為 epub、azw 或 mobi 等電子書格式?我正在尋找一個轉換速度快的應用程式。我剛剛嘗試過口徑。 10 分鐘後,轉換率甚至還沒有達到 2%。所以請不要口徑。 CLI 是首選。

答案1

我一般用口徑,從各種格式(epub、mobi 和 pdf)進行轉換。用它轉換非常簡單,這是一個螢幕截圖,有其他的和一個影片教學以及。

螢幕截圖

   SS口徑

答案2

你應該嘗試一下pdftotext(在軟體包中的 Ubuntu 下poppler-utils)。它是一個命令列轉換器。它假設 PDF 包含文字並且不僅僅包含圖像。

如果 PDF 檔案包含影像(沒有 OCR 資訊),則必須採用 OCR 解決方案,這要慢得多。

我也成功地對擾亂的 PDF 文字使用了 OCR 方法(透過以非線性方式將單個字元定位在頁面上)。然後您可以使用egpdftoppm來獲取頁面的各個圖像並對這些圖像進行OCR。

答案3

我必須對 PDF 文件執行一次此操作,結果如下(使用 poppler 中的 pdftohtml):

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

將 zip 檔案輸入 Calibre 並轉換為 EPUB。過濾所有 CSS 屬性(例如顏色、字體)。

每個 PDF 文件都是不同的 - 沒有明確的解決方案。上面的方法適用於一種特定情況 - 您必須弱化 pdftohtml/pdftotext,然後調整輸出以滿足您的需求。

如果失敗,您必須求助於 OCR,我在楔形文字方面運氣不錯。但也可以試試 tesseract、ocrad、gocr。然而,所有這些都需要手工勞動才能獲得良好的結果。

相關內容