Estoy intentando copiar texto de un PDF, pero obtengo basura

Estoy intentando copiar texto de un PDF, pero obtengo basura

Estoy intentando copiar textodesde un archivo PDF, pero me sale basura. Estoy usando Document Reader en Ubuntu para leer el documento. No es que no me permita copiar, sino que el texto copiado se ve así:

RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS    

5XQDVURRW

LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!

$53+HDGHUDVVXPLQJ(WKHUQHW,3Y

GH¿QH$53B5(48(67
$535HTXHVW

GH¿QH$53B5(3/<
$535HSO\

W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH

XBLQWBWSW\SH
3URWRFRO7\SH

XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK

XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK

XBLQWBWRSHU
2SHUDWLRQ&RGH

XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV

XBFKDUVSD>@
6HQGHU,3DGGUHVV

XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV

XBFKDUWSD>@
7DUJHW,3DGGUHVV

¿Qué puedo hacer para arreglar esto? Es una gran cantidad de datos que tomará mucho tiempo escribir.

Además, dicho sea de paso, el texto pegado se veía así en gedit (Ubuntu):

en mi sistema (¡Observe que se ve diferente cuando se pega aquí en esta pregunta!)

Siento que de alguna manera es un problema de codificación, pero no tengo forma de saber cómo solucionarlo.

Respuesta1

El texto subyacente está confuso. Creo que @skub tiene razón al pensar que puede ser a propósito. Una forma de obtener el texto sería exportar cada página como una imagen (por ejemplo,.jpgo.png) y luego escanear las imágenes conLOCsoftware. Pude probar esto en Windows 7 con Adobe Acrobat X; funcionó.

Actualizar:

Si su visor de documentos tiene una función similar, copy with formattingcopie el texto como se esperaba. Profundizando, puedo confirmar que las fuentes incrustadastodotener uncodificación personalizada.

información relacionada