無料または有料(約50ドル/40ポンド)を探していますバッチPDFからHTMLへのコンバーターいくつかのPDFファイルを一度に。
ファイル内のベクター画像とビットマップ画像を処理し、両方を HTML ページによって参照される jpeg として出力できる必要があります。
iorigsoft の有料 PDF から HTML への変換を試してみましたが、ハングしたりアイドル状態になったりする問題があり、実際に変換したものには壊れたリンクがあります。HTML として構成する章に間違った名前が使用されています。
また、intrapdf.com のアプリケーションも試しましたが、変換の開始近くで常にクラッシュします。
アップデート:
intrapdf は Windows XP マシンでは動作しますが、Windows 7 マシンでは動作しません。唯一の不具合は、フレーム化されたインデックス コンテンツの HTML です。ページ内のグラフィックがフレーム内のページに表示されません。ただし、フレームを新しいタブでのみ開くと、グラフィックが表示されます。これは Chrome のみのブラウザーの不具合である可能性があります。
この解決策は私にとっては十分です。すでにお金を使っているので(質問する前に使っていました)、Windows 7 では機能しないため、自分の答えを受け入れることができません。
オープンソース ツールも検討しましたが、同様に不安定だったり、古い PDF バージョンを使用したりしているようです。
Windows 7 32 ビット ホームで必要です。
ご意見は?
答え1
PDFはひどい変換のための入力形式は、"flakey" がほとんどです。一部のファイルは比較的簡単に変換できますが、ほとんどのファイルは意思問題があります。(簡単に言うと、PDFファイルは「ここに移動、これを出力、あそこに移動、...」という圧縮されたリストです。文書に何でも単純な L-to-R テキスト (表、画像、RTL テキスト、脚注など) 以外では、変換によってある程度のゴミが生成される可能性があります。
答え2
Canvas 要素を使用する PDF.js と呼ばれる HTML Javascript ベースの PDF レンダラーがあります。 http://mozilla.github.com/pdf.js/web/viewer.html
開発中ですが、一部の人にとっては役に立つかもしれません。
答え3
openoffice/libreoffice に変換用のコマンド ライン フラグがあるかどうかを確認します。
PDF は、あなたがしようとしていることには適していません。PDF がページを認識する方法と HTML がページを認識する方法の間には、ドキュメント モデルに大きな不一致があります。PDF ファイルの中には、どうやっても簡単に HTML に変換できないものがあります。
答え4
あなたが試すことができますOkdo PDFからHTMLへのコンバーター