PDFを電子書籍形式に変換する方法

Question 1

私は通常口径、さまざまな形式（EPUB、MOBI、PDF）から変換できます。これを使って変換するのは非常に簡単です。スクリーンショットをご覧ください。その他そしてビデオチュートリアル同じように。

スクリーンショット

ssの口径

Answer

私は通常口径、さまざまな形式（EPUB、MOBI、PDF）から変換できます。これを使って変換するのは非常に簡単です。スクリーンショットをご覧ください。その他そしてビデオチュートリアル同じように。

スクリーンショット

ssの口径

Question 2

試してみる価値がありますpdftotext(Ubuntu のパッケージに含まれていますpoppler-utils)。これはコマンドラインコンバーターです。PDF にテキストが含まれており、画像のみで構成されていないことを前提としています。

PDF ファイルが画像 (OCR 情報なし) で構成されている場合は、OCR ソリューションを使用する必要がありますが、これは非常に遅くなります。

私は、スクランブルされた PDF テキスト (ページ上の個々の文字を非線形に配置することによって) にも OCR 方式をうまく使用しました。次に、たとえばを使用してpdftoppmページの個々の画像を取得し、それらを OCR します。

Answer

試してみる価値がありますpdftotext(Ubuntu のパッケージに含まれていますpoppler-utils)。これはコマンドラインコンバーターです。PDF にテキストが含まれており、画像のみで構成されていないことを前提としています。

PDF ファイルが画像 (OCR 情報なし) で構成されている場合は、OCR ソリューションを使用する必要がありますが、これは非常に遅くなります。

私は、スクランブルされた PDF テキスト (ページ上の個々の文字を非線形に配置することによって) にも OCR 方式をうまく使用しました。次に、たとえばを使用してpdftoppmページの個々の画像を取得し、それらを OCR します。

Question 3

一度 PDF ファイルに対してこれを実行する必要があり、結果は次のようになりました (poppler の pdftohtml を使用)。

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@&#160;@ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

zip を Calibre に送り、EPUB に変換します。すべての CSS プロパティ (色、フォントなど) をフィルターします。

PDF ファイルはそれぞれ異なります。決定的な解決策はありません。上記は特定のケースでは機能しましたが、pdftohtml/pdftotext を実行してから、ニーズに合わせて出力を微調整する必要があります。

これが失敗して OCR に頼らなければならない場合、私は cuneiform でうまくいきました。ただし、tesseract、ocrad、gocr も試してみてください。ただし、これらすべてで良い結果を得るには手作業が必要です。

Answer

一度 PDF ファイルに対してこれを実行する必要があり、結果は次のようになりました (poppler の pdftohtml を使用)。

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@&#160;@ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

zip を Calibre に送り、EPUB に変換します。すべての CSS プロパティ (色、フォントなど) をフィルターします。

PDF ファイルはそれぞれ異なります。決定的な解決策はありません。上記は特定のケースでは機能しましたが、pdftohtml/pdftotext を実行してから、ニーズに合わせて出力を微調整する必要があります。

これが失敗して OCR に頼らなければならない場合、私は cuneiform でうまくいきました。ただし、tesseract、ocrad、gocr も試してみてください。ただし、これらすべてで良い結果を得るには手作業が必要です。

PDFを電子書籍形式に変換する方法

答え1

スクリーンショット

答え2

答え3

関連情報