Wie erhalte ich CJK-Unicode-Zeichen aus einer PDF-Datei, die zusätzliche Zeichen zur privaten Nutzung verwendet?

2024-7-7 • tag-icon

pdf unicode chinese

Wie erhalte ich CJK-Unicode-Zeichen aus einer PDF-Datei, die zusätzliche Zeichen zur privaten Nutzung verwendet?

Ich habe mehrere PDF-Dokumente (wieDieses hier), die scheinbar mit standardmäßigen chinesischen Ideogrammen geschrieben sind, aber wenn ich den Text extrahiere, stellt sich heraus, dass er mit Zeichen aus den ergänzenden Bereichen für den privaten Gebrauch von Unicode codiert ist.

Gibt es eine zuverlässige Möglichkeit, die privat genutzten Zeichen wieder den entsprechenden CJK-Zeichen zuzuordnen?

Antwort1

Der allgemeine Ablauf ist wahrscheinlich

Schriftart aus PDF extrahieren
Versuchen Sie, die Schriftart mit verschiedenen bekannten Kodierungen zu vergleichen und zu sehen, ob es sich um eine dieser handelt
Oder es könnte sich um etwas handeln, das tatsächlich privat genutzt wird
Ermitteln Sie eine umgekehrte Beziehung, indem Sie die Konvertierungstabelle überprüfen, wenn bekannt ist, um welche Kodierung es sich handelt. Andernfalls arbeiten Sie mit der aus dem PDF extrahierten Schriftart.

verwandte Informationen