
Estou tentando copiar textode um arquivo PDF, mas recebo lixo. Estou usando o Document Reader no Ubuntu para ler o documento. Não é como se ele não me permitisse copiar, mas apenas que o texto copiado fica assim:
RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS
5XQDVURRW
LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!
$53+HDGHUDVVXPLQJ(WKHUQHW,3Y
GH¿QH$53B5(48(67
$535HTXHVW
GH¿QH$53B5(3/<
$535HSO\
W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH
XBLQWBWSW\SH
3URWRFRO7\SH
XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK
XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK
XBLQWBWRSHU
2SHUDWLRQ&RGH
XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV
XBFKDUVSD>@
6HQGHU,3DGGUHVV
XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV
XBFKDUWSD>@
7DUJHW,3DGGUHVV
Oque posso fazer para consertar isso? é uma grande quantidade de dados que levará muito tempo para digitar.
Além disso, aliás, o texto colado ficou assim no gedit (Ubuntu):
(observe que parece diferente quando colado aqui nesta questão!)
Sinto que é de alguma forma um problema de codificação, mas não tenho como saber como consertar isso.
Responder1
O texto subjacente está distorcido. Acho que @skub está correto ao pensar que pode ser de propósito. Uma forma de obter o texto seria exportar cada página como uma imagem (por exemplo.jpgou.png) e, em seguida, digitalize as imagens comOCRProgramas. Consegui testar isso no Windows 7 com Adobe Acrobat X; funcionou.
Atualizar:
Se o seu visualizador de documentos tiver um recurso semelhante, copy with formatting
copie o texto conforme o esperado. Indo mais fundo, posso confirmar que as fontes incorporadastodostenha umcodificação personalizada.