
Estoy intentando copiar textodesde un archivo PDF, pero me sale basura. Estoy usando Document Reader en Ubuntu para leer el documento. No es que no me permita copiar, sino que el texto copiado se ve así:
RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS
5XQDVURRW
LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!
$53+HDGHUDVVXPLQJ(WKHUQHW,3Y
GH¿QH$53B5(48(67
$535HTXHVW
GH¿QH$53B5(3/<
$535HSO\
W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH
XBLQWBWSW\SH
3URWRFRO7\SH
XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK
XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK
XBLQWBWRSHU
2SHUDWLRQ&RGH
XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV
XBFKDUVSD>@
6HQGHU,3DGGUHVV
XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV
XBFKDUWSD>@
7DUJHW,3DGGUHVV
¿Qué puedo hacer para arreglar esto? Es una gran cantidad de datos que tomará mucho tiempo escribir.
Además, dicho sea de paso, el texto pegado se veía así en gedit (Ubuntu):
(¡Observe que se ve diferente cuando se pega aquí en esta pregunta!)
Siento que de alguna manera es un problema de codificación, pero no tengo forma de saber cómo solucionarlo.
Respuesta1
El texto subyacente está confuso. Creo que @skub tiene razón al pensar que puede ser a propósito. Una forma de obtener el texto sería exportar cada página como una imagen (por ejemplo,.jpgo.png) y luego escanear las imágenes conLOCsoftware. Pude probar esto en Windows 7 con Adobe Acrobat X; funcionó.
Actualizar:
Si su visor de documentos tiene una función similar, copy with formatting
copie el texto como se esperaba. Profundizando, puedo confirmar que las fuentes incrustadastodotener uncodificación personalizada.