Wie kann ich dieses Zitat aus PDF kopieren?

Wie kann ich dieses Zitat aus PDF kopieren?

Mögliches Duplikat:
Beim Kopieren und Einfügen wird der Text im PDF-Dokument verstümmelt

Ich lese einePDF-Kopievon Jerome H. Friedmans Aufsatz „Data Mining und Statistik: Welche Verbindung besteht?“ mit Google Chrome.

Es enthält ein lustiges Zitat, das ich kopieren und in mein Blog einfügen möchte.

Ich habe den Zitattext mit der Maus markiert und CTRL+ gedrückt C, um den Text zu kopieren. Das Dokument sieht folgendermaßen aus:

Ein hervorgehobenes Zitat aus Jeromes Artikel.

Wenn ich den Text in Notepad, Stack Overflow oder irgendwo anders einfüge, ist das Produkt Wingdings-ähnliches Kauderwelsch:

➣✍❺❼⑤➭✸❸❊➁❥❸❊⑥▼❽❾❸✘➎✳❸❾②❘➊➥❸❊❸❊⑥❦⑨❘②③✇▲➆ ②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥▼⑨❏✇➄⑥▼❺➌❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁❷⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②③⑨✘⑤⑥☎②❥➇⑦⑤⑩⑨ ➔❸❊➅⑩❺➌⑨❹❸❊❸❊➍P⑨①②❥❻ ➎✳❸❏②❥➇▼✇▲②➟➊❚➇⑦❸❊⑥✆✇P⑨❘②③✇▲②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄ ⑥❦➇▼✇➀⑨↔✇➄⑥❦⑤⑩❺❼❸✶✇♣➇⑦❸❷❻➀➁↔⑨❹➇⑦❸❷➊❚➁❥⑤②❥❸✶⑨ ✇❨➂▼✇➄➂✳❸❊➁✶Þ⑦✇♣❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁➟⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②↔⑨❘②③✇➄➁❹②③⑨❚✇♣❽❾❻➀➍♣➂▼✇➄⑥☛➧➀➏

Der Text sollte stattdessen so aussehen:

Ein Unterschied zwischen Statistikern und Informatikern auf diesem Gebiet scheint darin zu liegen, dass ein Statistiker, wenn er eine Idee hat, einen Aufsatz schreibt, ein Informatiker hingegen ein Unternehmen gründet.

Ich musste den Text manuell abtippen. Bei einem so kurzen Zitat ist das machbar, aber wie kann ich das, was ich sehe, tatsächlich kopieren?

Ist etwas Ungewöhnliches am PDF, am Browser, am Plug-In oder an einer Kombination dieser drei?

Antwort1

Der zuverlässigste Weg hierfür ist die Verwendung von OCR.

Aber als schmutzige und schnelle Lösung können Sie Google verwendenSchnellansichtvon demSuchergebnisfür Ihren Link, in der Schnellansicht verwenden Sie die OptionAnsicht > Einfaches HTML.

Es enthält immer noch einige verstümmelte Texte und ist ziemlichunlesbaraber ein großer Teil des Textes ist richtig und kopierfähig. Hier gibt es eine Suche, mit der Sie den Zieltext finden und kopieren können, ohne dass Textverfälschungen entstehen.


Ausführliches Beispiel hier:
Die Google-Suchergebnisse für die URL enthalten einen Quick View-Link.
Verwenden Sie dann die Option „Anzeigen“Einfaches HTML.
Die Schnellansicht bietet die Möglichkeit, das Dokument als HTML anzuzeigen.
Auf GooglesHTML-Versionkönnen Sie den entsprechenden Text wie folgt suchen und auswählen:
Durchsuchen Sie die HTML-Version, um das relevante Zitat zu finden und auszuwählen.
Das Einfügen in den Editor erzeugt diese Ausgabe:

Ein Unterschied zwischen Statistikern und Informatikern auf diesem Gebiet scheint darin zu liegen, dass ein Statistiker, wenn er eine Idee hat, einen Aufsatz schreibt, während ein Informatiker ein Unternehmen gründet.

Nicht genau wie angezeigt, aber nah genug dran, dass man damit arbeiten kann.

Antwort2

Sie müssen den beschädigten Text, der bereits mit der PDF-Datei verknüpft ist, löschen, bevor Sie ihn erneut OCR-lesen können. Am einfachsten geht das, indem Sie ihn im TIFF-Format speichern, ihn dann mit Acrobat öffnen und erneut OCR-lesen. Als ich das gemacht habe, hat es bei mir funktioniert.

Antwort3

Sieht aus wie ein PDF mit falscher Kodierung. Siehe die folgenden Threads:

Versuchen Sie, die PDF-Datei mitNiedlichPDF, und prüfen Sie dann, ob das resultierende PDF besser ist.

verwandte Informationen