У меня более 100 000 файлов .pdf. Среди них мне нужно найти поврежденные файлы.
Есть ли способ получить поврежденные файлы или наоборот, получить рабочие (автоматически, а не вручную проверять файлы по одному)?
Я много искал, но ничего не нашел. Все результаты показывали мне программное обеспечение для исправления поврежденных PDF-файлов.
решение1
Вы можете использовать что-то вроде Ghostscript, чтобы прочитать их все и преобразовать в растровые изображения, которые не записываются в файл (например, в Linux перенаправить вывод в /dev/null). Скрипт может проверять коды возврата и сообщения об ошибках.