非ASCIIコンテンツを含むPDFを検出するシェルスクリプト

非ASCIIコンテンツを含むPDFを検出するシェルスクリプト

有効な PDF を検出するシェル スクリプトが必要です。つまり、プレーン ASCII PDF のみを保持する必要があります。非 ASCII コンテンツや悪意のあるスクリプトを含むその他の PDF は削除する必要があります。どうすればよいでしょうか。これを行うためのスクリプトはありますか。

答え1

必要なのはウイルス スキャナーと呼ばれるものです。例:クラムAV

答え2

ここには Python スクリプトがいくつかあります。「マルウェア アーカイブ: PDF ファイル」でも、Bruce Schneier が自分のサイトでこれについて言及しています。

pdf2psは簡単ですが、確実性ははるかに低いです。これは興味深いPDF/Aですhttp://en.wikipedia.org/wiki/PDF/Aマルチメディア要素を許可しません。

関連情報