Вырезание и вставка вьетнамских символов из PDF-файла

Вырезание и вставка вьетнамских символов из PDF-файла

Я пытаюсь скопировать/вставить кучу вьетнамского текста из PDF-документа в Notepad++ (или что-то еще, ничего не работает). Вставленный текст отличается от исходного текста. Как лучше всего это исправить?

Например:

Исходный текст: (См. скриншот исходного текста) введите описание изображения здесь

Вставленный текст: Салат из папайи ~ GÕi ñu ñû Tôm

Спасибо.

Редактировать: Похоже, что если источником является документ Word, он копирует и вставляет, как и ожидалось. Проблема в PDF.

решение1

Это связано с тем, что кодировка, используемая в PDF-файле, является произвольной.

Свойства файла Acrobat

ОтНекоторые PDF-файлы на вьетнамском языке Я нашел в межтрубных пространствах

"Кодировка:Пользовательская" вероятно, означает (случайную на первый взгляд) кодировку, созданную для собственного удобства программой, создавшей этот PDF-файл.

"Встроенное подмножество" означает, что программе не нужно было большое количество символов из этого шрифта, поэтому она просто выбрала несколько необходимых ей символов и расположила их в, казалось бы, случайном порядке (возможно, в том порядке, в котором программа встретила их в тексте), а недавно изобретенная кодировка основана на этом порядке.

Это не совсем «персонажи». По сути, PDF больше не имеет никакой универсально значимой информации о том, "какой символ" у него есть. Он просто имеет индексированную кучу фигур и список позиций и размеров, где он отображает эти индексированные фигуры.


Википедия говорит

Шрифты с ключом CID могут быть созданы без ссылки на набор символов с использованием кодировки «идентификации», например Identity-H (для горизонтального письма) или Identity-V (для вертикального письма). Такие шрифты могут иметь уникальный набор символов, и в таких случаях номер CID глифа не является информативным; обычно вместо этого используется кодировка Unicode, возможно, с дополнительной информацией.

Поэтому вы можете попробовать посмотреть, имеет ли смысл, скажем, кодировку UTF-16 BE.

решение2

Я нашел решение, которое сработало для меня, хотя не могу объяснить почему. Когда я открыл PDF в Acrobat, я не смог скопировать и вставить вьетнамские символы. Однако, если я открыл PDF в Preview App Version (у меня версия 5.5.3 (719.31)) на моем Mac, я мог копировать и вставлять без проблем.

Связанный контент