¿Cómo obtener caracteres CJK Unicode de un PDF que utiliza caracteres suplementarios de uso privado?

¿Cómo obtener caracteres CJK Unicode de un PDF que utiliza caracteres suplementarios de uso privado?

Tengo varios documentos PDF (comoÉste) que parecen estar escritos usando ideogramas chinos estándar, pero cuando extraigo el texto, resulta que está codificado usando caracteres de las áreas de uso privado suplementarias de Unicode.

¿Existe alguna forma confiable de asignar los caracteres de uso privado a los caracteres CJK apropiados?

Respuesta1

El flujo general probablemente sea

  • Extraer fuente de PDF
  • Intente comparar la fuente con diferentes codificaciones conocidas y vea si es alguna de esas
  • O, alternativamente, podría ser algo que en realidad se utilice de forma privada.
  • Calcule una relación inversa verificando la tabla de conversión si se sabe cuál es la codificación; de lo contrario, trabaje con la fuente extraída del pdf.

información relacionada