
Я пытаюсь скопировать/вставить кучу вьетнамского текста из PDF-документа в Notepad++ (или что-то еще, ничего не работает). Вставленный текст отличается от исходного текста. Как лучше всего это исправить?
Например:
Исходный текст: (См. скриншот исходного текста)
Вставленный текст: Салат из папайи ~ GÕi ñu ñû Tôm
Спасибо.
Редактировать: Похоже, что если источником является документ Word, он копирует и вставляет, как и ожидалось. Проблема в PDF.
решение1
Это связано с тем, что кодировка, используемая в PDF-файле, является произвольной.
ОтНекоторые PDF-файлы на вьетнамском языке Я нашел в межтрубных пространствах
"Кодировка:Пользовательская" вероятно, означает (случайную на первый взгляд) кодировку, созданную для собственного удобства программой, создавшей этот PDF-файл.
"Встроенное подмножество" означает, что программе не нужно было большое количество символов из этого шрифта, поэтому она просто выбрала несколько необходимых ей символов и расположила их в, казалось бы, случайном порядке (возможно, в том порядке, в котором программа встретила их в тексте), а недавно изобретенная кодировка основана на этом порядке.
Это не совсем «персонажи». По сути, PDF больше не имеет никакой универсально значимой информации о том, "какой символ" у него есть. Он просто имеет индексированную кучу фигур и список позиций и размеров, где он отображает эти индексированные фигуры.
Википедия говорит
Шрифты с ключом CID могут быть созданы без ссылки на набор символов с использованием кодировки «идентификации», например Identity-H (для горизонтального письма) или Identity-V (для вертикального письма). Такие шрифты могут иметь уникальный набор символов, и в таких случаях номер CID глифа не является информативным; обычно вместо этого используется кодировка Unicode, возможно, с дополнительной информацией.
Поэтому вы можете попробовать посмотреть, имеет ли смысл, скажем, кодировку UTF-16 BE.
решение2
Я нашел решение, которое сработало для меня, хотя не могу объяснить почему. Когда я открыл PDF в Acrobat, я не смог скопировать и вставить вьетнамские символы. Однако, если я открыл PDF в Preview App Version (у меня версия 5.5.3 (719.31)) на моем Mac, я мог копировать и вставлять без проблем.