Estou tentando copiar texto de um PDF, mas recebo lixo

Estou tentando copiar texto de um PDF, mas recebo lixo

Estou tentando copiar textode um arquivo PDF, mas recebo lixo. Estou usando o Document Reader no Ubuntu para ler o documento. Não é como se ele não me permitisse copiar, mas apenas que o texto copiado fica assim:

RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS    

5XQDVURRW

LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!

$53+HDGHUDVVXPLQJ(WKHUQHW,3Y

GH¿QH$53B5(48(67
$535HTXHVW

GH¿QH$53B5(3/<
$535HSO\

W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH

XBLQWBWSW\SH
3URWRFRO7\SH

XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK

XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK

XBLQWBWRSHU
2SHUDWLRQ&RGH

XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV

XBFKDUVSD>@
6HQGHU,3DGGUHVV

XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV

XBFKDUWSD>@
7DUJHW,3DGGUHVV

Oque posso fazer para consertar isso? é uma grande quantidade de dados que levará muito tempo para digitar.

Além disso, aliás, o texto colado ficou assim no gedit (Ubuntu):

no meu sistema (observe que parece diferente quando colado aqui nesta questão!)

Sinto que é de alguma forma um problema de codificação, mas não tenho como saber como consertar isso.

Responder1

O texto subjacente está distorcido. Acho que @skub está correto ao pensar que pode ser de propósito. Uma forma de obter o texto seria exportar cada página como uma imagem (por exemplo.jpgou.png) e, em seguida, digitalize as imagens comOCRProgramas. Consegui testar isso no Windows 7 com Adobe Acrobat X; funcionou.

Atualizar:

Se o seu visualizador de documentos tiver um recurso semelhante, copy with formattingcopie o texto conforme o esperado. Indo mais fundo, posso confirmar que as fontes incorporadastodostenha umcodificação personalizada.

informação relacionada