書式を失わずに PDF からテキストをコピーするにはどうすればよいですか?

Question 1

まず、PDFとは何かを理解する必要があります。PDFは印刷されたページを模倣するように設計されており、のみ入力形式ではなく、出力形式として使用します。PDF は基本的に、文字 (個々の文字や句読点など) や画像の正確な位置を含むマップです。ほとんどの場合PDFには、どこに保存されているかという情報さえ保存されていません。言葉段落の終わりにソフトブレークとハードブレークのようなものはなく、別の段落が終わって別の段落が始まるようなものではありません。

(最近の PDF には、この情報を保存するものもありますが、これは新しい技術であり、そのような PDF を見つけるのは幸運なことです。たとえ見つけても、PDF ビューアーはそれを認識できない可能性があります。)

いずれにせよ、個々の文字の位置から単語や段落などを抽出するための「人工知能」のようなものを実装するのはソフトウェア次第です。ソフトウェアによってこの処理の精度は異なりますし、PDFの作成方法にも左右されます。いずれにせよ、一度もない完璧な結果を期待してください。出力 PDF があることは、ソースドキュメントがあることと同じではありません。可能であれば、それを取得するようにしてください。

このような問題に対する標準的な解決策は、Adobe Acrobat Professional (無料のリーダーではなく、高価なもの) を使用して PDF を HTML に変換することです。それでも完璧な結果は得られません。

PDFからテキストをある程度の書式を維持したまま抽出できる無料ソフトウェアもありますが、やはり完璧な結果は期待できません。例えば、calibre（RTF形式に変換可能）pdftohtml/pdfリフローまたはAbiWord ワードプロセッサ(すべてのインポート/エクスポートプラグインが有効)。OpenOffice 用の PDF インポートプラグインもあります。

ただし、これらの結果に完璧さを期待しないでください。これは常識に反する行為です。PDF は編集可能な入力形式として意図されていません。

Answer

まず、PDFとは何かを理解する必要があります。PDFは印刷されたページを模倣するように設計されており、のみ入力形式ではなく、出力形式として使用します。PDF は基本的に、文字 (個々の文字や句読点など) や画像の正確な位置を含むマップです。ほとんどの場合PDFには、どこに保存されているかという情報さえ保存されていません。言葉段落の終わりにソフトブレークとハードブレークのようなものはなく、別の段落が終わって別の段落が始まるようなものではありません。

(最近の PDF には、この情報を保存するものもありますが、これは新しい技術であり、そのような PDF を見つけるのは幸運なことです。たとえ見つけても、PDF ビューアーはそれを認識できない可能性があります。)

いずれにせよ、個々の文字の位置から単語や段落などを抽出するための「人工知能」のようなものを実装するのはソフトウェア次第です。ソフトウェアによってこの処理の精度は異なりますし、PDFの作成方法にも左右されます。いずれにせよ、一度もない完璧な結果を期待してください。出力 PDF があることは、ソースドキュメントがあることと同じではありません。可能であれば、それを取得するようにしてください。

このような問題に対する標準的な解決策は、Adobe Acrobat Professional (無料のリーダーではなく、高価なもの) を使用して PDF を HTML に変換することです。それでも完璧な結果は得られません。

PDFからテキストをある程度の書式を維持したまま抽出できる無料ソフトウェアもありますが、やはり完璧な結果は期待できません。例えば、calibre（RTF形式に変換可能）pdftohtml/pdfリフローまたはAbiWord ワードプロセッサ(すべてのインポート/エクスポートプラグインが有効)。OpenOffice 用の PDF インポートプラグインもあります。

ただし、これらの結果に完璧さを期待しないでください。これは常識に反する行為です。PDF は編集可能な入力形式として意図されていません。

Question 2

もう一つの選択肢は、無料の PDF ビューアである Foxit をダウンロードして使用することです (これは良いものです)。次に、[名前を付けて保存] で .txt を選択してテキストファイルに変換します。これにより、すべての書式設定が保持されます。Adobe でも同じことができるかどうかはわかりません。Foxit に切り替えてからしばらく経ってから Adobe の使用をやめたからです。

Answer

もう一つの選択肢は、無料の PDF ビューアである Foxit をダウンロードして使用することです (これは良いものです)。次に、[名前を付けて保存] で .txt を選択してテキストファイルに変換します。これにより、すべての書式設定が保持されます。Adobe でも同じことができるかどうかはわかりません。Foxit に切り替えてからしばらく経ってから Adobe の使用をやめたからです。

Question 3

非常に優れたオンラインツールがありますセイダ高度なPDF操作を扱います。ダウンロードするソフトウェアはありません。新しいオンラインツールですが、現在はまだベータ版です。PDFからテキストを抽出できるほか、さまざまなPDF機能も利用できます。

http://www.sejda.com/

sejda 関数の簡単なビデオレビューは、2012 年 11 月 14 日に Revision 3 によって作成されました。こちらからご覧いただけます。

http://revision3.com/tzdaily/sejda-online-pdf

Answer

非常に優れたオンラインツールがありますセイダ高度なPDF操作を扱います。ダウンロードするソフトウェアはありません。新しいオンラインツールですが、現在はまだベータ版です。PDFからテキストを抽出できるほか、さまざまなPDF機能も利用できます。

http://www.sejda.com/

sejda 関数の簡単なビデオレビューは、2012 年 11 月 14 日に Revision 3 によって作成されました。こちらからご覧いただけます。

http://revision3.com/tzdaily/sejda-online-pdf

Question 4

これには Adobe Acrobat Pro を使用できます。

表の場合: Acrobat 9/10 には表を選択する機能がありました。Acrobat X では、[名前を付けて保存] > [スプレッドシート] > [Excel] をクリックするだけです。ページを 1 つの長いスプレッドシートに連結することもできます。素晴らしい機能です。

テキストの場合: MS Word にエクスポートするための同様の機能があります。名前を付けて保存 > Word > Word ドキュメント。

出典:

http://blogs.adobe.com/acrolaw/2009/04/exporting-a-pdf-to-excel/
さっそくやってみたところ、見事にうまくいきました。

Answer

これには Adobe Acrobat Pro を使用できます。

表の場合: Acrobat 9/10 には表を選択する機能がありました。Acrobat X では、[名前を付けて保存] > [スプレッドシート] > [Excel] をクリックするだけです。ページを 1 つの長いスプレッドシートに連結することもできます。素晴らしい機能です。

テキストの場合: MS Word にエクスポートするための同様の機能があります。名前を付けて保存 > Word > Word ドキュメント。

出典:

http://blogs.adobe.com/acrolaw/2009/04/exporting-a-pdf-to-excel/
さっそくやってみたところ、見事にうまくいきました。

書式を失わずに PDF からテキストをコピーするにはどうすればよいですか?

答え1

答え2

答え3

答え4

関連情報