PDF ドキュメントを epub、azw、mobi などの電子書籍形式に変換する方法はありますか? 変換が高速なアプリケーションを探しています。Calibre を試してみました。10 分経っても変換が 2% にも達していません。Calibre は使用しないでください。CLI をお勧めします。
答え1
私は通常口径、さまざまな形式(EPUB、MOBI、PDF)から変換できます。これを使って変換するのは非常に簡単です。スクリーンショットをご覧ください。その他そしてビデオチュートリアル同じように。
スクリーンショット
答え2
試してみる価値がありますpdftotext
(Ubuntu のパッケージに含まれていますpoppler-utils
)。これはコマンドライン コンバーターです。PDF にテキストが含まれており、画像のみで構成されていないことを前提としています。
PDF ファイルが画像 (OCR 情報なし) で構成されている場合は、OCR ソリューションを使用する必要がありますが、これは非常に遅くなります。
私は、スクランブルされた PDF テキスト (ページ上の個々の文字を非線形に配置することによって) にも OCR 方式をうまく使用しました。次に、たとえばを使用してpdftoppm
ページの個々の画像を取得し、それらを OCR します。
答え3
一度 PDF ファイルに対してこれを実行する必要があり、結果は次のようになりました (poppler の pdftohtml を使用)。
#!/bin/bash
pwddir="`pwd`"
tmpdir="`mktemp -d`"
pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index
cd "$tmpdir"
sed -e :a -e '$!N;s/\n/ /;ta' \
-i index.html
sed -e 's@ @ @g' \
-e 's@<hr>@ @g' \
-e 's@<br/>\s*<br/>@</p><p>@g' \
-e 's@<br/>@ @g' \
-i index.html
tidy -utf8 -i -wrap 9999999 -m index.html
sed -e 's@<a name="[^"]*"></a>@@g' \
-i index.html
rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *
zip を Calibre に送り、EPUB に変換します。すべての CSS プロパティ (色、フォントなど) をフィルターします。
PDF ファイルはそれぞれ異なります。決定的な解決策はありません。上記は特定のケースでは機能しましたが、pdftohtml/pdftotext を実行してから、ニーズに合わせて出力を微調整する必要があります。
これが失敗して OCR に頼らなければならない場合、私は cuneiform でうまくいきました。ただし、tesseract、ocrad、gocr も試してみてください。ただし、これらすべてで良い結果を得るには手作業が必要です。