No se puede copiar texto de un archivo pdf protegido con Adobe Reader

No se puede copiar texto de un archivo pdf protegido con Adobe Reader

Tengo un documento técnico en PDF de una fuente de terceros del que necesitaba copiar una pequeña cantidad de texto complicado. Seleccioné el texto y descubrí que la opción de copiar estaba atenuada. Miré las propiedades y parecía estar protegido contra copia. Quería copiar el texto en lugar de volver a escribirlo porque era un poco complicado y quería evitar errores tipográficos.

Respuesta1

Si este pdf no es una imagen, utilice el comando pdftotext. Es una utilidad incorporada en Ubuntu. Si el pdf es un archivo de imagen, debes convertirlo a jpg y luego reconocerlo con tesseract.

convert-im6.q16 -density 300 yourfile.pdf yourfile.jpg
tesseract -l en youfile.pdf

Respuesta2

Abrir el archivo en una aplicación PDF alternativa, como un navegador, puede ser una forma sencilla de sortear ALGUNAS protecciones que se pueden aplicar a un PDF.

Si el contenido del PDF es una imagen (fue escaneada, por ejemplo), es posible que esto no funcione y necesitarás una herramienta con OCR (reconocimiento óptico de caracteres) para analizar la imagen y generar el texto a partir de ella.

información relacionada