Cortar y pegar caracteres vietnamitas de un PDF

Question 1

Esto se debe a que la codificación utilizada en el PDF es arbitraria.

Propiedades del archivo Acrobat

_{DeAlgunos PDF en vietnamita lo encontré en los intertubos}

"Codificación:Personalizado"probablemente signifique una codificación (aparentemente aleatoria) creada para su propia conveniencia por el programa que produjo este PDF.

"Subconjunto integrado" significa que el programa no necesitaba una gran cantidad de caracteres de esta fuente, por lo que simplemente eligió los pocos que necesitaba y los organizó en un orden aparentemente aleatorio (tal vez el orden en que el programa los encontró en el texto) y se basa la codificación recién inventada. en este pedido.

En realidad no son "personajes". Básicamente, el PDF ya no tiene información universalmente significativa sobre "qué carácter" tiene. Simplemente tiene un montón de formas indexadas y una lista de posiciones y tamaños donde muestra esas formas indexadas.

Wikipedia dice

Las fuentes con clave CID se pueden crear sin referencia a una colección de caracteres mediante el uso de una codificación de "identidad", como Identity-H (para escritura horizontal) o Identity-V (para vertical). Cada una de estas fuentes puede tener un conjunto de caracteres único y, en tales casos, el número CID de un glifo no es informativo; generalmente se utiliza la codificación Unicode, potencialmente con información complementaria.

Por lo tanto, puede intentar ver si tiene sentido, digamos, la codificación BE UTF-16.

Answer