
PDF ファイルからテキストをコピーしてテキスト エディターに入力すると、さまざまな方法で文字が変形してしまいます。太字や斜体などの書式設定が失われ、段落内のソフト改行がハード改行に変換され、単語を 2 行に分割するダッシュが、そうであるべきでない場合でも保持され、一重引用符と二重引用符が ? 記号に置き換えられます。
理想的には、PDF からテキストをコピーし、書式を HTML コードに変換し、「スマート引用符」を " と ' に変換し、改行を適切に行えるようにしたいのですが、これを実現する方法はありますか?
答え1
まず、PDFとは何かを理解する必要があります。PDFは印刷されたページを模倣するように設計されており、のみ入力形式ではなく、出力形式として使用します。PDF は基本的に、文字 (個々の文字や句読点など) や画像の正確な位置を含むマップです。ほとんどの場合PDFには、どこに保存されているかという情報さえ保存されていません。言葉段落の終わりにソフトブレークとハードブレークのようなものはなく、別の段落が終わって別の段落が始まるようなものではありません。
(最近の PDF には、この情報を保存するものもありますが、これは新しい技術であり、そのような PDF を見つけるのは幸運なことです。たとえ見つけても、PDF ビューアーはそれを認識できない可能性があります。)
いずれにせよ、個々の文字の位置から単語や段落などを抽出するための「人工知能」のようなものを実装するのはソフトウェア次第です。ソフトウェアによってこの処理の精度は異なりますし、PDFの作成方法にも左右されます。いずれにせよ、一度もない完璧な結果を期待してください。出力 PDF があることは、ソース ドキュメントがあることと同じではありません。可能であれば、それを取得するようにしてください。
このような問題に対する標準的な解決策は、Adobe Acrobat Professional (無料のリーダーではなく、高価なもの) を使用して PDF を HTML に変換することです。それでも完璧な結果は得られません。
PDFからテキストをある程度の書式を維持したまま抽出できる無料ソフトウェアもありますが、やはり完璧な結果は期待できません。例えば、calibre(RTF形式に変換可能)pdftohtml/pdfリフローまたはAbiWord ワードプロセッサ(すべてのインポート/エクスポート プラグインが有効)。OpenOffice 用の PDF インポート プラグインもあります。
ただし、これらの結果に完璧さを期待しないでください。これは常識に反する行為です。PDF は編集可能な入力形式として意図されていません。
答え2
もう一つの選択肢は、無料の PDF ビューアである Foxit をダウンロードして使用することです (これは良いものです)。次に、[名前を付けて保存] で .txt を選択してテキスト ファイルに変換します。これにより、すべての書式設定が保持されます。Adobe でも同じことができるかどうかはわかりません。Foxit に切り替えてからしばらく経ってから Adobe の使用をやめたからです。
答え3
非常に優れたオンラインツールがありますセイダ高度なPDF操作を扱います。ダウンロードするソフトウェアはありません。新しいオンラインツールですが、現在はまだベータ版です。PDFからテキストを抽出できるほか、さまざまなPDF機能も利用できます。
sejda 関数の簡単なビデオレビューは、2012 年 11 月 14 日に Revision 3 によって作成されました。こちらからご覧いただけます。
答え4
これには Adobe Acrobat Pro を使用できます。
表の場合: Acrobat 9/10 には表を選択する機能がありました。Acrobat X では、[名前を付けて保存] > [スプレッドシート] > [Excel] をクリックするだけです。ページを 1 つの長いスプレッドシートに連結することもできます。素晴らしい機能です。
テキストの場合: MS Word にエクスポートするための同様の機能があります。名前を付けて保存 > Word > Word ドキュメント。
出典:
- http://blogs.adobe.com/acrolaw/2009/04/exporting-a-pdf-to-excel/
- さっそくやってみたところ、見事にうまくいきました。