Shell script para detectar PDFs com conteúdo não-ASCII

Shell script para detectar PDFs com conteúdo não-ASCII

Preciso de um script de shell para detectar PDFs válidos. Ou seja, preciso reter apenas PDFs ASCII simples. Outros PDFs que contenham conteúdo não-ASCII e scripts maliciosos precisam ser excluídos. Como eu poderia fazer isso? Existe algum script disponível para fazer isso?

Responder1

O que você deseja é chamado de antivírus. Por exemplo.ClamAV

Responder2

Existem alguns scripts python aqui. "The Malware Archives: PDF Files" também Bruce Schneier mencionou isso em seu site.

pdf2ps é fácil, mas muito menos seguro. Este é um PDF/A interessantehttp://en.wikipedia.org/wiki/PDF/Anão permite elementos multimídia.

informação relacionada