
テキストをコピーしようとしていますPDFファイルからですが、ゴミが表示されます。Ubuntu の Document Reader を使用してドキュメントを読みます。コピーできないわけではありませんが、コピーしたテキストは次のようになります。
RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS
5XQDVURRW
LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!
$53+HDGHUDVVXPLQJ(WKHUQHW,3Y
GH¿QH$53B5(48(67
$535HTXHVW
GH¿QH$53B5(3/<
$535HSO\
W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH
XBLQWBWSW\SH
3URWRFRO7\SH
XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK
XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK
XBLQWBWRSHU
2SHUDWLRQ&RGH
XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV
XBFKDUVSD>@
6HQGHU,3DGGUHVV
XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV
XBFKDUWSD>@
7DUJHW,3DGGUHVV
これを修正するにはどうすればいいでしょうか? 大量のデータを入力すると、入力に非常に長い時間がかかります。
ちなみに、貼り付けたテキストは gedit (Ubuntu) では次のようになりました。
(この質問に貼り付けると見た目が変わることに注意してください!)
何らかのエンコードの問題であると感じていますが、これを修正する方法がわかりません。
答え1
基になるテキストが文字化けしています。@skub が、わざとそうしているのではないかと考えているのは正しいと思います。テキストを取得する 1 つの方法は、各ページを画像としてエクスポートすることです (例:.jpgまたは.png)で画像をスキャンしますOCCRソフトウェアです。Windows 7 で Adobe Acrobat X を使用してテストしたところ、動作しました。
アップデート:
ドキュメントビューアに同様の機能がある場合は、copy with formatting
期待どおりにテキストをコピーします。さらに詳しく調べると、埋め込まれたフォントが全て持っているカスタムエンコーディング。