PDFを電子書籍形式に変換する方法

PDFを電子書籍形式に変換する方法

PDF ドキュメントを epub、azw、mobi などの電子書籍形式に変換する方法はありますか? 変換が高速なアプリケーションを探しています。Calibre を試してみました。10 分経っても変換が 2% にも達していません。Calibre は使用しないでください。CLI をお勧めします。

答え1

私は通常口径、さまざまな形式(EPUB、MOBI、PDF)から変換できます。これを使って変換するのは非常に簡単です。スクリーンショットをご覧ください。その他そしてビデオチュートリアル同じように。

スクリーンショット

   ssの口径

答え2

試してみる価値がありますpdftotext(Ubuntu のパッケージに含まれていますpoppler-utils)。これはコマンドライン コンバーターです。PDF にテキストが含まれており、画像のみで構成されていないことを前提としています。

PDF ファイルが画像 (OCR 情報なし) で構成されている場合は、OCR ソリューションを使用する必要がありますが、これは非常に遅くなります。

私は、スクランブルされた PDF テキスト (ページ上の個々の文字を非線形に配置することによって) にも OCR 方式をうまく使用しました。次に、たとえばを使用してpdftoppmページの個々の画像を取得し、それらを OCR します。

答え3

一度 PDF ファイルに対してこれを実行する必要があり、結果は次のようになりました (poppler の pdftohtml を使用)。

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

zip を Calibre に送り、EPUB に変換します。すべての CSS プロパティ (色、フォントなど) をフィルターします。

PDF ファイルはそれぞれ異なります。決定的な解決策はありません。上記は特定のケースでは機能しましたが、pdftohtml/pdftotext を実行してから、ニーズに合わせて出力を微調整する必要があります。

これが失敗して OCR に頼らなければならない場合、私は cuneiform でうまくいきました。ただし、tesseract、ocrad、gocr も試してみてください。ただし、これらすべてで良い結果を得るには手作業が必要です。

関連情報