¿Cómo encuentro archivos PDF corruptos?

¿Cómo encuentro archivos PDF corruptos?

Tengo más de 100.000 archivos .pdf. Entre ellos necesito encontrar los archivos corruptos.

¿Hay alguna manera de obtener los archivos que están dañados o, viceversa, obtener los que funcionan (de forma automatizada en lugar de examinar manualmente los archivos uno a la vez)?

Busqué mucho pero no pude encontrar ninguno. Todos los resultados me mostraban software para reparar archivos PDF rotos.

Respuesta1

Podrías usar algo como Ghostscript para leerlos todos y convertirlos en imágenes de mapa de bits que no están escritas en un archivo (por ejemplo, en Linux redirige la salida a /dev/null). Un script podría buscar códigos de retorno y mensajes de error.

información relacionada