Скрипт оболочки для обнаружения PDF-файлов с содержимым, отличным от ASCII

Скрипт оболочки для обнаружения PDF-файлов с содержимым, отличным от ASCII

Мне нужен скрипт оболочки для обнаружения допустимых PDF-файлов. То есть мне нужно сохранить только простые ASCII-файлы PDF. Другие PDF-файлы, содержащие не-ASCII-контент и вредоносные скрипты, нужно удалить. Как мне это сделать? Есть ли какой-либо скрипт, который это сделает?

решение1

То, что вам нужно, называется антивирусным сканером. Например.ClamAV

решение2

Здесь есть несколько скриптов на Python. "The Malware Archives: PDF Files" также Брюс Шнайер упомянул об этом на своем сайте.

pdf2ps — это просто, но гораздо менее надежно. Это интересно PDF/Ahttp://en.wikipedia.org/wiki/PDF/Aзапрещает использование мультимедийных элементов.

Связанный контент