
Tengo un documento PDF bastante grande (~100 MB) con muchas imágenes (como ilustraciones e imágenes de fondo) y me gustaría tener una copia de ese PDF sin imágenes, pero no encuentro cómo hacerlo. Haz eso.
No estoy hablando de convertirlo solo a texto, me gustaría mantener los párrafos/tablas/columnas múltiples como están.
Me siento cómodo con la línea de comandos y tengo varias computadoras con diferentes distribuciones que puedo usar.
Respuesta1
Las últimas versiones de Ghostscript también pueden hacer esto. Simplemente agregue el parámetro -dFILTERIMAGE
a su comando.
Incluso hay dos parámetros nuevos más que se pueden agregar para eliminar selectivamente tipos de contenido."vector"y"texto":
-dFILTERIMAGE
: produce una salida donde se eliminan todas las imágenes rasterizadas.-dFILTERTEXT
: produce una salida donde se eliminan todos los elementos de texto.-dFILTERVECTOR
: produce una salida donde se eliminan todos los dibujos vectoriales.
Se pueden combinar dos de estas opciones. (Si combinas los 3, todas las páginas quedarán en blanco...)
Ejemplos
Aquí está la captura de pantalla de una página PDF de ejemplo que contiene los 3 tipos de contenido mencionados anteriormente:
Captura de pantalla de la página PDF originalque contiene elementos "imagen", "vector" y "texto".
La ejecución de los siguientes 6 comandos creará las 6 variaciones posibles del contenido restante:
gs -o noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE input.pdf gs -o noTXT.pdf -sDEVICE=pdfwrite -dFILTERTEXT input.pdf gs -o noVCT.pdf -sDEVICE=pdfwrite -dFILTERVECTOR input.pdf gs -o onlyIMG.pdf -sDEVICE=pdfwrite -dFILTERVECTOR -dFILTERTEXT input.pdf gs -o onlyTXT.pdf -sDEVICE=pdfwrite -dFILTERVECTOR -dFILTERIMAGE input.pdf gs -o onlyVCT.pdf -sDEVICE=pdfwrite -dFILTERIMAGE -dFILTERTEXT input.pdf
La siguiente imagen ilustra los resultados:
Fila superior,desde la izquierda: se eliminó todo el "texto"; todas las "imágenes" eliminadas; todos los "vectores" eliminados.Fila inferior,De izquierda a derecha: sólo se conserva el "texto"; sólo se conservan las "imágenes"; sólo se mantienen los "vectores".
Respuesta2
cpdf -draft original.pdf -o version_without_images.pdf
No está en los repositorios pero puedes encontrar una descarga (precompiladoofuente) ensu página web.
15.1 Borradores de documentos
La opción -draft elimina imágenes de mapa de bits (fotográficas) de un archivo, para que pueda imprimirse con menos tinta. Opcionalmente, se puede agregar la opción -boxes, llenando los espacios en blanco con un cuadro cruzado que indica dónde estaba la imagen. No se garantiza que esto sea completamente visible en todos los casos (el mapa de bits puede haber sido parcialmente cubierto por objetos vectoriales o recortado en el original). Por ejemplo:
cpdf -draft -boxes in.pdf -o out.pdf
Respuesta3
Mientras que la respuesta de @Rinzwind es laCosa correcta, Me gustaría simplemente comentar la solución "intermedia". Normalmente puedes reducir mucho el tamaño de las imágenes usandoguión fantasmacon
gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen \
-dNOPAUSE -dQUIET -dBATCH -sOutputFile=small.pdf original.pdf
...a veces resulta muy útil para corregir. La página del manual para escribir PDF esaquí.
Respuesta4
Puedes usarEditor de PDF maestro(para Windows, Linux, Mac OS):
- Abre el PDF
- Borra esas imagenes
- Guardar como un nuevo archivo PDF
Puede descargarlo desde el centro de software de Ubuntu.