Como obter caracteres CJK Unicode de um PDF que usa caracteres complementares de uso privado?

2024-7-7 • tag-icon

pdf unicode chinese

Como obter caracteres CJK Unicode de um PDF que usa caracteres complementares de uso privado?

Tenho vários documentos PDF (comoEste) que parecem ter sido escritos usando ideogramas chineses padrão, mas quando extraio o texto, descobri que ele está codificado usando caracteres das áreas de uso privado suplementares do Unicode.

Existe alguma maneira confiável de mapear os caracteres de uso privado de volta aos caracteres CJK apropriados?

Responder1

O fluxo geral é provavelmente

Extraia a fonte do PDF
Tente comparar a fonte com diferentes codificações conhecidas e veja se é alguma dessas
Ou, alternativamente, pode ser algo que seja realmente usado de forma privada
Elabore uma relação inversa verificando a tabela de conversão se souber qual é a codificação; caso contrário, trabalhe a partir da fonte extraída do pdf

informação relacionada