Как извлечь символы CJK Unicode из PDF-файла, в котором используются дополнительные символы личного пользования?

Как извлечь символы CJK Unicode из PDF-файла, в котором используются дополнительные символы личного пользования?

У меня есть несколько PDF-документов (например,Вот этот), которые, по-видимому, написаны с использованием стандартных китайских идеограмм, но когда я извлекаю текст, оказывается, что он закодирован с использованием символов из дополнительных областей частного использования Unicode.

Существует ли какой-либо надежный способ преобразования символов личного пользования обратно в соответствующие символы CJK?

решение1

Общий поток, вероятно,

  • Извлечь шрифт из PDF
  • Попробуйте сравнить шрифт с другими известными кодировками и посмотрите, соответствует ли он какой-либо из них.
  • Или же это может быть что-то, что на самом деле используется в личных целях.
  • Определите обратную связь, проверив таблицу преобразования, если известна кодировка, в противном случае работайте с извлеченным шрифтом из PDF-файла.

Связанный контент