PDFからテキストをコピーしようとしていますが、ゴミが出てしまいます

PDFからテキストをコピーしようとしていますが、ゴミが出てしまいます

テキストをコピーしようとしていますPDFファイルからですが、ゴミが表示されます。Ubuntu の Document Reader を使用してドキュメントを読みます。コピーできないわけではありませんが、コピーしたテキストは次のようになります。

RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS    

5XQDVURRW

LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!

$53+HDGHUDVVXPLQJ(WKHUQHW,3Y

GH¿QH$53B5(48(67
$535HTXHVW

GH¿QH$53B5(3/<
$535HSO\

W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH

XBLQWBWSW\SH
3URWRFRO7\SH

XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK

XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK

XBLQWBWRSHU
2SHUDWLRQ&RGH

XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV

XBFKDUVSD>@
6HQGHU,3DGGUHVV

XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV

XBFKDUWSD>@
7DUJHW,3DGGUHVV

これを修正するにはどうすればいいでしょうか? 大量のデータを入力すると、入力に非常に長い時間がかかります。

ちなみに、貼り付けたテキストは gedit (Ubuntu) では次のようになりました。

私のシステムでは (この質問に貼り付けると見た目が変わることに注意してください!)

何らかのエンコードの問題であると感じていますが、これを修正する方法がわかりません。

答え1

基になるテキストが文字化けしています。@skub が、わざとそうしているのではないかと考えているのは正しいと思います。テキストを取得する 1 つの方法は、各ページを画像としてエクスポートすることです (例:.jpgまたは.png)で画像をスキャンしますOCCRソフトウェアです。Windows 7 で Adob​​e Acrobat X を使用してテストしたところ、動作しました。

アップデート:

ドキュメントビューアに同様の機能がある場合は、copy with formatting期待どおりにテキストをコピーします。さらに詳しく調べると、埋め込まれたフォントが全て持っているカスタムエンコーディング

関連情報