Ich versuche, Text aus einer PDF-Datei zu kopieren, aber ich erhalte Müll

Ich versuche, Text aus einer PDF-Datei zu kopieren, aber ich erhalte Müll

Ich versuche, Text zu kopierenaus einer PDF-Datei, aber ich bekomme Müll. Ich verwende Document Reader unter Ubuntu, um das Dokument zu lesen. Es ist nicht so, dass ich damit nicht kopieren kann, aber der kopierte Text sieht nur so aus:

RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS    

5XQDVURRW

LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!

$53+HDGHUDVVXPLQJ(WKHUQHW,3Y

GH¿QH$53B5(48(67
$535HTXHVW

GH¿QH$53B5(3/<
$535HSO\

W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH

XBLQWBWSW\SH
3URWRFRO7\SH

XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK

XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK

XBLQWBWRSHU
2SHUDWLRQ&RGH

XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV

XBFKDUVSD>@
6HQGHU,3DGGUHVV

XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV

XBFKDUWSD>@
7DUJHW,3DGGUHVV

Was kann ich tun, um das Problem zu beheben? Es handelt sich um eine große Datenmenge, deren Eingabe sehr lange dauern wird.

Außerdem sah der eingefügte Text auf gedit (Ubuntu) übrigens folgendermaßen aus:

auf meinem System (Beachten Sie, dass es anders aussieht, wenn es hier in diese Frage eingefügt wird!)

Ich habe das Gefühl, dass es sich irgendwie um ein Kodierungsproblem handelt, weiß aber nicht, wie ich das beheben kann.

Antwort1

Der zugrunde liegende Text ist verstümmelt. Ich denke, @skub hat Recht, wenn er denkt, dass das Absicht sein könnte. Eine Möglichkeit, den Text zu erhalten, wäre, jede Seite als Bild zu exportieren (z. B..jpgoder.png) und scannen Sie die Bilder anschließend mitOCRSoftware. Ich konnte dies unter Windows 7 mit Adobe Acrobat X testen; es hat funktioniert.

Aktualisieren:

Wenn Ihr Dokumentbetrachter eine ähnliche Funktion hat, copy with formattingkopiert er den Text wie erwartet. Wenn ich tiefer graben kann ich bestätigen, dass die eingebetteten Schriftartenallehabe einenbenutzerdefinierte Kodierung.

verwandte Informationen