
Estou tentando copiar/colar um monte de texto vietnamita de um documento PDF para o Notepad++ (ou qualquer coisa, nada funciona). O texto colado é diferente do texto de origem. Qual seria a melhor maneira de consertar isso?
Por exemplo:
Texto fonte: (veja a captura de tela do texto fonte)
Texto colado: Salada de Mamão ~ GÕi ñu ñû Tôm
Muito obrigado.
Editar: parece que se a fonte for um documento do Word, ele copia e cola conforme o esperado. PDF é o problema aqui.
Responder1
Isso ocorre porque a codificação usada no PDF é arbitrária.
DeAlgum PDF em vietnamita Eu encontrei nos intertubos
"Codificação:Personalizada"provavelmente significa uma codificação (aparentemente aleatória) criada para sua própria conveniência pelo programa que produziu este PDF.
"Subconjunto incorporado"significa que o programa não precisava de um grande número de caracteres desta fonte, então ele apenas escolheu os poucos necessários e os organizou em uma ordem aparentemente aleatória (talvez a ordem em que o programa os encontrou no texto) e a codificação recém-inventada é baseada nesta encomenda.
Não são realmente “personagens”. Basicamente, o PDF não possui mais nenhuma informação universalmente significativa sobre "qual caractere" ele possui. Ele apenas possui um monte de formas indexadas e uma lista de posições e tamanhos onde exibe essas formas indexadas.
Wikipédia diz
Fontes com chave CID podem ser feitas sem referência a uma coleção de caracteres usando uma codificação de "identidade", como Identity-H (para escrita horizontal) ou Identity-V (para vertical). Cada uma dessas fontes pode ter um conjunto de caracteres exclusivo e, nesses casos, o número CID de um glifo não é informativo; geralmente a codificação Unicode é usada, potencialmente com informações suplementares.
Portanto, você pode tentar ver se faz sentido, digamos, a codificação UTF-16 BE.
Responder2
Encontrei uma solução que funcionou para mim - embora não consiga explicar o porquê. Quando abri o PDF no Acrobat, não consegui copiar e colar os caracteres vietnamitas. No entanto, se eu abrisse o PDF na versão Preview App (tenho a versão 5.5.3 (719.31)) no meu Mac, poderia copiar e colar sem problemas.