Ich habe mehrere PDF-Dokumente (wieDieses hier), die scheinbar mit standardmäßigen chinesischen Ideogrammen geschrieben sind, aber wenn ich den Text extrahiere, stellt sich heraus, dass er mit Zeichen aus den ergänzenden Bereichen für den privaten Gebrauch von Unicode codiert ist.
Gibt es eine zuverlässige Möglichkeit, die privat genutzten Zeichen wieder den entsprechenden CJK-Zeichen zuzuordnen?
Antwort1
Der allgemeine Ablauf ist wahrscheinlich
- Schriftart aus PDF extrahieren
- Versuchen Sie, die Schriftart mit verschiedenen bekannten Kodierungen zu vergleichen und zu sehen, ob es sich um eine dieser handelt
- Oder es könnte sich um etwas handeln, das tatsächlich privat genutzt wird
- Ermitteln Sie eine umgekehrte Beziehung, indem Sie die Konvertierungstabelle überprüfen, wenn bekannt ist, um welche Kodierung es sich handelt. Andernfalls arbeiten Sie mit der aus dem PDF extrahierten Schriftart.