
Posible duplicado:
PDF tiene texto confuso al copiar y pegar
estoy leyendo uncopia en PDFdel artículo de Jerome H. Friedman "Minería de datos y estadísticas: ¿Cuál es la conexión?" utilizando Google Chrome.
Contiene una cita divertida que quiero copiar y pegar en mi blog.
Usé el mouse para seleccionar el texto de la cita y presioné CTRL+ Cpara copiar el texto. El documento se ve así:
Cuando pego el texto en el Bloc de notas, Stack Overflow o en cualquier otro lugar, el producto es un galimatías parecido a Wingdings:
➣✍❺❼⑤➭✸❸❊➁❥❸❊⑥▼❽❾❸✘➎✳❸❾②❘➊➥❸❊❸❊⑥❦⑨❘②③✇▲➆ ②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥▼⑨❏✇➄⑥▼❺➌❽❾❻➀➍♣ ➂⑦❶❼②❥❸❊➁❷⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②③⑨✘⑤⑥☎②❥➇⑦⑤⑩⑨ ➔ ❸❊➅⑩❺➌⑨❹❸❊❸❊➍P⑨①②❥❻ ➎✳❸❏②❥➇▼✇▲②➟➊❚➇⑦❸❊⑥✆✇ P⑨❘②③✇▲②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥❦➇▼✇➀⑨↔✇➄⑥❦⑤⑩❺❼❸✶ ✇♣➇⑦❸❷❻➀➁↔⑨❹➇⑦❸❷➊❚➁❥⑤②❥❸✶⑨ ✇❨➂▼✇➄➂✳❸❊➁✶Þ⑦ ✇♣❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁➟⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②↔⑨❘②③✇ ➄➁❹②③⑨❚✇♣❽❾❻➀➍♣➂▼✇➄⑥☛➧➀➏
En cambio, el texto debería verse así:
Una diferencia entre los estadísticos y los informáticos en este campo parece ser que cuando un estadístico tiene una idea, escribe un artículo; un informático inicia una empresa.
Tuve que escribir ese texto manualmente. Esto es factible para una cita tan pequeña, pero ¿cómo copio realmente lo que veo?
¿Hay algo inusual en el PDF, el navegador, el complemento o alguna combinación de los tres?
Respuesta1
La forma más fiable de hacerlo es mediante OCR.
Pero como solución sucia y rápida puedes utilizar Google.Vista rápidadesde elresultado de búsquedapara su enlace, en la opción de uso Vista rápidaVer > HTML simple.
Todavía contiene texto confuso y es bastanteilegiblepero una gran cantidad de texto es correcto y copiable. La búsqueda funciona aquí, por lo que puede utilizarla para localizar el texto de destino y copiarlo sin texto confuso.
Ejemplo detallado aquí:

Luego use la opción VerHTML simple.

En Googleversión HTML, puedes buscar y seleccionar el texto equivalente como este:

Pegar en el Bloc de notas produce este resultado:
Una diferencia entre los estadísticos y los informáticos en este campo parece ser que cuando un estadístico tiene una idea, escribe un artículo; un informático inicia una empresa.
No exactamente como se muestra, pero lo suficientemente cerca como para poder trabajar con él.
Respuesta2
Tendrás que descartar el texto corrupto que ya está asociado con el PDF antes de poder volver a realizar el OCR. La forma más sencilla de hacerlo es guardarlo en formato TIFF, luego abrirlo con Acrobat y volver a OCR. Cuando hice eso, funcionó para mí.
Respuesta3
Parece un PDF con codificación incorrecta. Vea los siguientes hilos:
Intente imprimir el PDF usandoLindoPDF, luego vea si el PDF resultante es mejor.