
Estoy intentando copiar y pegar un montón de texto vietnamita de un documento PDF en Notepad++ (o cualquier cosa, nada funciona). El texto pegado es diferente al texto original. ¿Cuál sería la mejor manera de solucionar este problema?
Por ejemplo:
Texto fuente: (ver captura de pantalla para el texto fuente)
Texto pegado: Ensalada de Papaya ~ GÕi ñu ñû Tôm
Muchas gracias.
Editar: Parece que si la fuente es un documento de Word, se copia y pega como se esperaba. El PDF es el problema aquí.
Respuesta1
Esto se debe a que la codificación utilizada en el PDF es arbitraria.
DeAlgunos PDF en vietnamita lo encontré en los intertubos
"Codificación:Personalizado"probablemente signifique una codificación (aparentemente aleatoria) creada para su propia conveniencia por el programa que produjo este PDF.
"Subconjunto integrado" significa que el programa no necesitaba una gran cantidad de caracteres de esta fuente, por lo que simplemente eligió los pocos que necesitaba y los organizó en un orden aparentemente aleatorio (tal vez el orden en que el programa los encontró en el texto) y se basa la codificación recién inventada. en este pedido.
En realidad no son "personajes". Básicamente, el PDF ya no tiene información universalmente significativa sobre "qué carácter" tiene. Simplemente tiene un montón de formas indexadas y una lista de posiciones y tamaños donde muestra esas formas indexadas.
Wikipedia dice
Las fuentes con clave CID se pueden crear sin referencia a una colección de caracteres mediante el uso de una codificación de "identidad", como Identity-H (para escritura horizontal) o Identity-V (para vertical). Cada una de estas fuentes puede tener un conjunto de caracteres único y, en tales casos, el número CID de un glifo no es informativo; generalmente se utiliza la codificación Unicode, potencialmente con información complementaria.
Por lo tanto, puede intentar ver si tiene sentido, digamos, la codificación BE UTF-16.
Respuesta2
Encontré una solución que funcionó para mí, aunque no puedo explicar por qué. Cuando abrí el PDF en Acrobat, no pude copiar ni pegar los caracteres vietnamitas. Sin embargo, si abrí el PDF en la versión preliminar de la aplicación (tengo la versión 5.5.3 (719.31)) en mi Mac, podría copiar y pegar sin problemas.