У меня есть несколько PDF-документов (например,Вот этот), которые, по-видимому, написаны с использованием стандартных китайских идеограмм, но когда я извлекаю текст, оказывается, что он закодирован с использованием символов из дополнительных областей частного использования Unicode.
Существует ли какой-либо надежный способ преобразования символов личного пользования обратно в соответствующие символы CJK?
решение1
Общий поток, вероятно,
- Извлечь шрифт из PDF
- Попробуйте сравнить шрифт с другими известными кодировками и посмотрите, соответствует ли он какой-либо из них.
- Или же это может быть что-то, что на самом деле используется в личных целях.
- Определите обратную связь, проверив таблицу преобразования, если известна кодировка, в противном случае работайте с извлеченным шрифтом из PDF-файла.