スキャンした PDF ファイルの解像度はどれくらいですか?

スキャンした PDF ファイルの解像度はどれくらいですか?
  1. 解像度を 300 に指定して、Canon スキャナーを使用していくつかのドキュメントをスキャンしました。

    私はそれをPDFファイルに保存しました。そしてImageMagickでPDFファイルの解像度をチェックしました。

    identify -verbose my.pdf
    

    出力では、各ページごとに次のように表示されます。

    Resolution: 72x72
    

    これは、以前スキャナーで指定した 300 ではありません。なぜ違うのでしょうか? 注: jpg ファイルとして保存した場合、および Xerox workCenter を使用した場合も、同じ問題が発生します。

  2. Adobe Premium Pro を使用して PDF ファイルを OCR する場合、PDF ファイルをダウンサンプリングする解像度をいくつかのオプション (72、300、600) から指定できます。OCR された PDF ファイルの解像度を元の PDF ファイルより低くしたくない場合は、PDF ファイルの解像度をどのように確認すればよいですか。また、Adobe Premium Pro の OCR にどの解像度オプションを選択すればよいですか。

ありがとう。

答え1

PDF はベクター グラフィック ドキュメントです。任意の解像度でレンダリングできます。

PDF ドキュメントに埋め込まれたラスター画像 (基本的なスキャン ドキュメントでは一般的) には、通常、解像度 (紙に印刷した場合のドキュメントの 1 インチあたりのピクセル数) があります。このような PDF ドキュメントには、解像度や方向が異なる複数の画像 (複数ページのドキュメントの場合は複数) が含まれる場合があります。

これは ImageMagick のレポートとは異なりますidentify -v。72dpi は、PDF をラスター イメージに変換してピクセル情報をレポートするために使用する解像度です。

実際に実行されることがわかりますgs ... -r72x72 ...

pdfimagesPDF ドキュメント内のすべてのラスター イメージをレポートできます。

$ pdfimages -list scan.pdf
page   num  type   width height color comp bpc  enc interp  object ID
---------------------------------------------------------------------
   1     0 image    1219  1707  rgb     3   8  jpeg   no         8  0
$ qpdf --show-pages --with-images scan.pdf
page 1: 3 0 R
  images:
    /Im0: 8 0 R, 1219 x 1707
  content:
    4 0 R

これにより、ピクセル単位のサイズがわかりますが、画像が印刷されるボックスのサイズ (mmまたは) はわかりません。そのため、そこから解像度を取得することはできません。inch

ただし、オブジェクト ID (8 0上記) から、コンテナーの寸法を調べることができます。

$ mutool show scan.pdf grep | grep 'Im0 8 0'
scan.pdf:3: <</Contents 4 0 R/CropBox[0 0 595 842]/MediaBox[0 0 595 842]/Parent 2 0 R/Resources<</XObject<</Im0 8 0 R>>/ProcSet 6 0 R>>/Thumb 11 0 R/Type/Page>>

したがって、ここでは、画像が 595x842 pt (ポイントは 1/72 インチ) でレンダリングされていることがわかります。

したがって、x と y の解像度を導き出すことができます。

$ echo "$((1219 * 72 / 595))dpi" "$((1707 * 72 / 842))dpi"
147dpi 145dpi

JPG として埋め込まれる場合、画像には解像度を指定する EXIF ヘッダーが含まれる場合があることに注意してください。

それを調べるには、画像を抽出します。

$ exiftool -XResolution -YResolution <(qpdf --show-object=8 --raw-stream-data scan.pdf)
X Resolution                    : 72
Y Resolution                    : 72

ただし、ここでは一致しません。

また、画像を抽出してpdfimagesOCR に渡すこともできます。これにより、OCR はラスター画像に変換する前に解像度を決定する必要がなくなります。

関連情報