如何將pdf轉換為電子書格式

Question 1

我一般用口徑，從各種格式（epub、mobi 和 pdf）進行轉換。用它轉換非常簡單，這是一個螢幕截圖，有其他的和一個影片教學以及。

螢幕截圖

SS口徑

Answer

我一般用口徑，從各種格式（epub、mobi 和 pdf）進行轉換。用它轉換非常簡單，這是一個螢幕截圖，有其他的和一個影片教學以及。

螢幕截圖

SS口徑

Question 2

你應該嘗試一下pdftotext（在軟體包中的 Ubuntu 下poppler-utils）。它是一個命令列轉換器。它假設 PDF 包含文字並且不僅僅包含圖像。

如果 PDF 檔案包含影像（沒有 OCR 資訊），則必須採用 OCR 解決方案，這要慢得多。

我也成功地對擾亂的 PDF 文字使用了 OCR 方法（透過以非線性方式將單個字元定位在頁面上）。然後您可以使用egpdftoppm來獲取頁面的各個圖像並對這些圖像進行OCR。

Answer

你應該嘗試一下pdftotext（在軟體包中的 Ubuntu 下poppler-utils）。它是一個命令列轉換器。它假設 PDF 包含文字並且不僅僅包含圖像。

如果 PDF 檔案包含影像（沒有 OCR 資訊），則必須採用 OCR 解決方案，這要慢得多。

我也成功地對擾亂的 PDF 文字使用了 OCR 方法（透過以非線性方式將單個字元定位在頁面上）。然後您可以使用egpdftoppm來獲取頁面的各個圖像並對這些圖像進行OCR。

Question 3

我必須對 PDF 文件執行一次此操作，結果如下（使用 poppler 中的 pdftohtml）：

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@&#160;@ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

將 zip 檔案輸入 Calibre 並轉換為 EPUB。過濾所有 CSS 屬性（例如顏色、字體）。

每個 PDF 文件都是不同的 - 沒有明確的解決方案。上面的方法適用於一種特定情況 - 您必須弱化 pdftohtml/pdftotext，然後調整輸出以滿足您的需求。

如果失敗，您必須求助於 OCR，我在楔形文字方面運氣不錯。但也可以試試 tesseract、ocrad、gocr。然而，所有這些都需要手工勞動才能獲得良好的結果。

Answer

我必須對 PDF 文件執行一次此操作，結果如下（使用 poppler 中的 pdftohtml）：

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@&#160;@ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

將 zip 檔案輸入 Calibre 並轉換為 EPUB。過濾所有 CSS 屬性（例如顏色、字體）。

每個 PDF 文件都是不同的 - 沒有明確的解決方案。上面的方法適用於一種特定情況 - 您必須弱化 pdftohtml/pdftotext，然後調整輸出以滿足您的需求。

如果失敗，您必須求助於 OCR，我在楔形文字方面運氣不錯。但也可以試試 tesseract、ocrad、gocr。然而，所有這些都需要手工勞動才能獲得良好的結果。

如何將pdf轉換為電子書格式

答案1

螢幕截圖

答案2

答案3

相關內容