
重複の可能性あり:
PDFをコピーして貼り付けると文字化けする
私は読んでいますPDFコピーJerome H. Friedman の論文「データ マイニングと統計: その関係は?」を Google Chrome を使用して閲覧します。
面白い引用文が含まれているので、コピーしてブログに貼り付けたいと思います。
マウスを使って引用文のテキストを選択し、CTRL+を押してCテキストをコピーしました。ドキュメントは次のようになります。
テキストをメモ帳、Stack Overflow、またはその他の場所に貼り付けると、製品は Wingdings のような意味不明な文字列になります。
➣✍❺❼⑤➭✸❸❊➁❥❸❊⑥▼❽❾❸✘➎✳❸❾②❘➊➥❸❊❸❊⑥❦⑨❘②③✇▲➆ ②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥▼⑨❏✇➄⑥▼❺➌❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁❷⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②③⑨✘⑤⑥☎②❥➇⑦⑤⑩⑨ ➔❸❊➅⑩❺➌⑨❹❸❊❸❊➍P⑨①②❥❻ ➎✳❸❏②❥➇▼✇▲②➟➊❚➇⑦❸❊⑥✆✇P⑨❘②③✇▲②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥❦➇▼✇➀⑨↔✇➄⑥❦⑤⑩❺❼❸✶✇♣➇⑦❸❷❻➀➁↔⑨❹➇⑦❸❷➊❚➁❥⑤②❥❸✶⑨ ✇❨➂▼✇➄➂✳❸❊➁✶Þ⑦✇♣❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁➟⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②↔⑨❘②③✇➄➁❹②③⑨❚✇♣❽❾❻➀➍♣➂▼✇➄⑥☛➧➀➏
代わりにテキストは次のようになります。
この分野における統計学者とコンピュータ科学者の違いは、統計学者はアイデアが浮かんだら論文を書くのに対し、コンピュータ科学者は会社を設立するという点にあるようです。
そのテキストを手動で入力する必要がありました。これは、このような短い引用であれば実行可能ですが、実際に見たものをコピーするにはどうすればよいでしょうか?
これは PDF、ブラウザ、プラグイン、あるいはこれら 3 つの組み合わせに何か異常があるのでしょうか?
答え1
最も信頼性の高い方法は、OCR を使用することです。
しかし、汚くて速い解決策として、Googleを使うことができますクイックビューから検索結果リンクの場合は、クイックビューでオプションを使用します表示 > プレーン HTML。
まだ文字化けしたテキストがいくつかあり、かなり読めないしかし、大部分のテキストは正確であり、 コピー可能ここでは検索が機能するため、対象のテキストを見つけて、文字化けすることなくコピーすることができます。
詳細な例はこちら:

次に表示オプションを使用しますプレーン HTML。

GoogleのHTMLバージョン次のように同等のテキストを検索して選択することができます。

メモ帳に貼り付けると、次の出力が生成されます。
この分野における統計学者とコンピュータ科学者の違いは、統計学者はアイデアが浮かんだら論文を書くのに対し、コンピュータ科学者は会社を立ち上げるという点にあるようです。
表示されているものと全く同じではありませんが、操作できる程度には近いです。
答え2
再度 OCR を実行する前に、PDF に既に関連付けられている破損したテキストを破棄する必要があります。これを行う最も簡単な方法は、TIFF 形式で保存し、Acrobat で開いて再度 OCR を実行することです。私の場合は、この方法でうまくいきました。
答え3
エンコードが間違っている PDF のようです。次のスレッドを参照してください。
PDFを印刷するにはかわいいPDF結果の PDF が改善されたかどうかを確認します。