
Mögliches Duplikat:
Beim Kopieren und Einfügen wird der Text im PDF-Dokument verstümmelt
Ich lese einePDF-Kopievon Jerome H. Friedmans Aufsatz „Data Mining und Statistik: Welche Verbindung besteht?“ mit Google Chrome.
Es enthält ein lustiges Zitat, das ich kopieren und in mein Blog einfügen möchte.
Ich habe den Zitattext mit der Maus markiert und CTRL+ gedrückt C, um den Text zu kopieren. Das Dokument sieht folgendermaßen aus:
Wenn ich den Text in Notepad, Stack Overflow oder irgendwo anders einfüge, ist das Produkt Wingdings-ähnliches Kauderwelsch:
➣✍❺❼⑤➭✸❸❊➁❥❸❊⑥▼❽❾❸✘➎✳❸❾②❘➊➥❸❊❸❊⑥❦⑨❘②③✇▲➆ ②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥▼⑨❏✇➄⑥▼❺➌❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁❷⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②③⑨✘⑤⑥☎②❥➇⑦⑤⑩⑨ ➔❸❊➅⑩❺➌⑨❹❸❊❸❊➍P⑨①②❥❻ ➎✳❸❏②❥➇▼✇▲②➟➊❚➇⑦❸❊⑥✆✇P⑨❘②③✇▲②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄ ⑥❦➇▼✇➀⑨↔✇➄⑥❦⑤⑩❺❼❸✶✇♣➇⑦❸❷❻➀➁↔⑨❹➇⑦❸❷➊❚➁❥⑤②❥❸✶⑨ ✇❨➂▼✇➄➂✳❸❊➁✶Þ⑦✇♣❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁➟⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②↔⑨❘②③✇➄➁❹②③⑨❚✇♣❽❾❻➀➍♣➂▼✇➄⑥☛➧➀➏
Der Text sollte stattdessen so aussehen:
Ein Unterschied zwischen Statistikern und Informatikern auf diesem Gebiet scheint darin zu liegen, dass ein Statistiker, wenn er eine Idee hat, einen Aufsatz schreibt, ein Informatiker hingegen ein Unternehmen gründet.
Ich musste den Text manuell abtippen. Bei einem so kurzen Zitat ist das machbar, aber wie kann ich das, was ich sehe, tatsächlich kopieren?
Ist etwas Ungewöhnliches am PDF, am Browser, am Plug-In oder an einer Kombination dieser drei?
Antwort1
Der zuverlässigste Weg hierfür ist die Verwendung von OCR.
Aber als schmutzige und schnelle Lösung können Sie Google verwendenSchnellansichtvon demSuchergebnisfür Ihren Link, in der Schnellansicht verwenden Sie die OptionAnsicht > Einfaches HTML.
Es enthält immer noch einige verstümmelte Texte und ist ziemlichunlesbaraber ein großer Teil des Textes ist richtig und kopierfähig. Hier gibt es eine Suche, mit der Sie den Zieltext finden und kopieren können, ohne dass Textverfälschungen entstehen.
Ausführliches Beispiel hier:

Verwenden Sie dann die Option „Anzeigen“Einfaches HTML.

Auf GooglesHTML-Versionkönnen Sie den entsprechenden Text wie folgt suchen und auswählen:

Das Einfügen in den Editor erzeugt diese Ausgabe:
Ein Unterschied zwischen Statistikern und Informatikern auf diesem Gebiet scheint darin zu liegen, dass ein Statistiker, wenn er eine Idee hat, einen Aufsatz schreibt, während ein Informatiker ein Unternehmen gründet.
Nicht genau wie angezeigt, aber nah genug dran, dass man damit arbeiten kann.
Antwort2
Sie müssen den beschädigten Text, der bereits mit der PDF-Datei verknüpft ist, löschen, bevor Sie ihn erneut OCR-lesen können. Am einfachsten geht das, indem Sie ihn im TIFF-Format speichern, ihn dann mit Acrobat öffnen und erneut OCR-lesen. Als ich das gemacht habe, hat es bei mir funktioniert.
Antwort3
Sieht aus wie ein PDF mit falscher Kodierung. Siehe die folgenden Threads:
Kopieren Sie Text aus einer PDF-Datei in Word. Holen Sie sich einfach Symbols
Beim Kopieren und Einfügen wird der Text im PDF-Dokument verstümmelt
Versuchen Sie, die PDF-Datei mitNiedlichPDF, und prüfen Sie dann, ob das resultierende PDF besser ist.