Recortando e colando caracteres vietnamitas de um PDF

Recortando e colando caracteres vietnamitas de um PDF

Estou tentando copiar/colar um monte de texto vietnamita de um documento PDF para o Notepad++ (ou qualquer coisa, nada funciona). O texto colado é diferente do texto de origem. Qual seria a melhor maneira de consertar isso?

Por exemplo:

Texto fonte: (veja a captura de tela do texto fonte) insira a descrição da imagem aqui

Texto colado: Salada de Mamão ~ GÕi ñu ñû Tôm

Muito obrigado.

Editar: parece que se a fonte for um documento do Word, ele copia e cola conforme o esperado. PDF é o problema aqui.

Responder1

Isso ocorre porque a codificação usada no PDF é arbitrária.

Propriedades do arquivo Acrobat

DeAlgum PDF em vietnamita Eu encontrei nos intertubos

"Codificação:Personalizada"provavelmente significa uma codificação (aparentemente aleatória) criada para sua própria conveniência pelo programa que produziu este PDF.

"Subconjunto incorporado"significa que o programa não precisava de um grande número de caracteres desta fonte, então ele apenas escolheu os poucos necessários e os organizou em uma ordem aparentemente aleatória (talvez a ordem em que o programa os encontrou no texto) e a codificação recém-inventada é baseada nesta encomenda.

Não são realmente “personagens”. Basicamente, o PDF não possui mais nenhuma informação universalmente significativa sobre "qual caractere" ele possui. Ele apenas possui um monte de formas indexadas e uma lista de posições e tamanhos onde exibe essas formas indexadas.


Wikipédia diz

Fontes com chave CID podem ser feitas sem referência a uma coleção de caracteres usando uma codificação de "identidade", como Identity-H (para escrita horizontal) ou Identity-V (para vertical). Cada uma dessas fontes pode ter um conjunto de caracteres exclusivo e, nesses casos, o número CID de um glifo não é informativo; geralmente a codificação Unicode é usada, potencialmente com informações suplementares.

Portanto, você pode tentar ver se faz sentido, digamos, a codificação UTF-16 BE.

Responder2

Encontrei uma solução que funcionou para mim - embora não consiga explicar o porquê. Quando abri o PDF no Acrobat, não consegui copiar e colar os caracteres vietnamitas. No entanto, se eu abrisse o PDF na versão Preview App (tenho a versão 5.5.3 (719.31)) no meu Mac, poderia copiar e colar sem problemas.

informação relacionada