Ausschneiden und Einfügen vietnamesischer Zeichen aus einer PDF-Datei

Ausschneiden und Einfügen vietnamesischer Zeichen aus einer PDF-Datei

Ich versuche, eine Menge vietnamesischen Text aus einem PDF-Dokument in Notepad++ (oder irgendetwas anderes) zu kopieren/einzufügen, aber nichts funktioniert. Der eingefügte Text unterscheidet sich vom Quelltext. Wie kann ich das am besten beheben?

Zum Beispiel:

Quelltext: (Quelltext siehe Screenshot) Bildbeschreibung hier eingeben

Eingefügter Text: Papayasalat ~ GÕi ñu ñû Tôm

Vielen Dank.

Bearbeiten: Wenn die Quelle ein Word-Dokument ist, funktioniert das Kopieren und Einfügen anscheinend wie erwartet. Das Problem liegt hier beim PDF-Dokument.

Antwort1

Dies liegt daran, dass die im PDF verwendete Kodierung willkürlich ist.

Acrobat-Dateieigenschaften

AusEinige PDFs auf Vietnamesisch Ich fand in den Intertubes

"Kodierung:Benutzerdefiniert" bedeutet wahrscheinlich eine (scheinbar zufällige) Kodierung, die das Programm, das dieses PDF erstellt hat, aus praktischen Gründen erstellt hat.

"Eingebettete Teilmenge" bedeutet: Das Programm benötigte keine große Anzahl von Zeichen aus dieser Schriftart, also wählte es nur die wenigen aus, die es brauchte, und ordnete sie in scheinbar zufälliger Reihenfolge an (vielleicht in der Reihenfolge, in der das Programm sie im Text vorfand), und die neu erfundene Kodierung basiert auf dieser Reihenfolge.

Es sind nicht wirklich „Zeichen“. Im Grunde genommen enthält das PDF keine allgemeingültigen Informationen mehr darüber, „welches Zeichen“ es hat. Es enthält lediglich eine indizierte Reihe von Formen und eine Liste von Positionen und Größen, an denen diese indizierten Formen angezeigt werden.


Wikipedia sagt

CID-kodierte Schriftarten können ohne Bezug auf eine Zeichensammlung erstellt werden, indem eine „Identitäts“-Kodierung wie Identity-H (für horizontales Schreiben) oder Identity-V (für vertikales Schreiben) verwendet wird. Solche Schriftarten können jeweils einen eindeutigen Zeichensatz haben, und in solchen Fällen ist die CID-Nummer einer Glyphe nicht aussagekräftig; im Allgemeinen wird stattdessen die Unicode-Kodierung verwendet, möglicherweise mit Zusatzinformationen.

Sie können also versuchen, herauszufinden, ob es beispielsweise in der UTF-16-BE-Kodierung Sinn ergibt.

Antwort2

Ich habe eine Lösung gefunden, die für mich funktioniert hat – kann mir aber nicht erklären, warum. Als ich die PDF-Datei in Acrobat öffnete, konnte ich die vietnamesischen Zeichen nicht kopieren und einfügen. Wenn ich die PDF-Datei jedoch in der App-Version von Preview (ich habe Version 5.5.3 (719.31)) auf meinem Mac öffnete, konnte ich problemlos kopieren und einfügen.

verwandte Informationen