Como obter caracteres CJK Unicode de um PDF que usa caracteres complementares de uso privado?

Como obter caracteres CJK Unicode de um PDF que usa caracteres complementares de uso privado?

Tenho vários documentos PDF (comoEste) que parecem ter sido escritos usando ideogramas chineses padrão, mas quando extraio o texto, descobri que ele está codificado usando caracteres das áreas de uso privado suplementares do Unicode.

Existe alguma maneira confiável de mapear os caracteres de uso privado de volta aos caracteres CJK apropriados?

Responder1

O fluxo geral é provavelmente

  • Extraia a fonte do PDF
  • Tente comparar a fonte com diferentes codificações conhecidas e veja se é alguma dessas
  • Ou, alternativamente, pode ser algo que seja realmente usado de forma privada
  • Elabore uma relação inversa verificando a tabela de conversão se souber qual é a codificação; caso contrário, trabalhe a partir da fonte extraída do pdf

informação relacionada