
Ich versuche, Text zu kopierenaus einer PDF-Datei, aber ich bekomme Müll. Ich verwende Document Reader unter Ubuntu, um das Dokument zu lesen. Es ist nicht so, dass ich damit nicht kopieren kann, aber der kopierte Text sieht nur so aus:
RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS
5XQDVURRW
LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!
$53+HDGHUDVVXPLQJ(WKHUQHW,3Y
GH¿QH$53B5(48(67
$535HTXHVW
GH¿QH$53B5(3/<
$535HSO\
W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH
XBLQWBWSW\SH
3URWRFRO7\SH
XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK
XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK
XBLQWBWRSHU
2SHUDWLRQ&RGH
XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV
XBFKDUVSD>@
6HQGHU,3DGGUHVV
XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV
XBFKDUWSD>@
7DUJHW,3DGGUHVV
Was kann ich tun, um das Problem zu beheben? Es handelt sich um eine große Datenmenge, deren Eingabe sehr lange dauern wird.
Außerdem sah der eingefügte Text auf gedit (Ubuntu) übrigens folgendermaßen aus:
(Beachten Sie, dass es anders aussieht, wenn es hier in diese Frage eingefügt wird!)
Ich habe das Gefühl, dass es sich irgendwie um ein Kodierungsproblem handelt, weiß aber nicht, wie ich das beheben kann.
Antwort1
Der zugrunde liegende Text ist verstümmelt. Ich denke, @skub hat Recht, wenn er denkt, dass das Absicht sein könnte. Eine Möglichkeit, den Text zu erhalten, wäre, jede Seite als Bild zu exportieren (z. B..jpgoder.png) und scannen Sie die Bilder anschließend mitOCRSoftware. Ich konnte dies unter Windows 7 mit Adobe Acrobat X testen; es hat funktioniert.
Aktualisieren:
Wenn Ihr Dokumentbetrachter eine ähnliche Funktion hat, copy with formatting
kopiert er den Text wie erwartet. Wenn ich tiefer graben kann ich bestätigen, dass die eingebetteten Schriftartenallehabe einenbenutzerdefinierte Kodierung.