스캔한 PDF 파일의 해상도는 얼마입니까?

스캔한 PDF 파일의 해상도는 얼마입니까?
  1. 해상도가 300으로 지정된 Canon 스캐너를 사용하여 일부 문서를 스캔했습니다.

    PDF 파일로 저장한 다음 ImageMagick을 통해 PDF 파일의 해상도를 확인했습니다.

    identify -verbose my.pdf
    

    출력에서 모든 페이지에 대해 다음과 같이 반환됩니다.

    Resolution: 72x72
    

    이전에 스캐너로 지정한 300이 아닙니다. 왜 다른가요? 참고: jpg 파일로 저장한 경우와 Xerox workCenter를 사용하는 경우에도 동일한 문제가 발생합니다.

  2. Adobe Premium Pro를 사용하여 PDF 파일을 OCR할 때 여러 옵션(72, 300, 600) 중에서 PDF 파일을 다운샘플링할 해상도를 지정할 수 있습니다. OCR된 PDF 파일의 해상도가 원본 PDF 파일보다 낮은 것을 원하지 않는 경우 PDF 파일의 해상도를 어떻게 확인하고 Adobe Premium Pro에서 OCR에 대해 어떤 해상도 옵션을 선택해야 합니까?

감사해요.

답변1

PDF는 벡터 그래픽 문서입니다. 어떤 해상도로도 렌더링할 수 있습니다.

PDF 문서에 포함된 래스터 이미지(일반적인 기본 스캔 문서와 마찬가지로)에는 일반적으로 해상도(종이에 인쇄할 때 문서의 1인치당 픽셀 수)가 있습니다. 그러한 PDF 문서 하나에는 해상도와 방향이 서로 다른 여러 이미지가 있을 수 있습니다(여러 페이지 문서인 경우 포함됨).

ImageMagick의 보고서는 그렇지 않습니다 identify -v. 72dpi는 픽셀 정보를 보고하기 위해 PDF를 래스터 이미지로 변환하는 데 사용하는 해상도입니다.

실제로 실행되는 것을 볼 수 있습니다 gs ... -r72x72 ....

pdfimagesPDF 문서의 모든 래스터 이미지를 보고할 수 있습니다.

$ pdfimages -list scan.pdf
page   num  type   width height color comp bpc  enc interp  object ID
---------------------------------------------------------------------
   1     0 image    1219  1707  rgb     3   8  jpeg   no         8  0
$ qpdf --show-pages --with-images scan.pdf
page 1: 3 0 R
  images:
    /Im0: 8 0 R, 1219 x 1707
  content:
    4 0 R

이는 픽셀 단위의 크기를 제공하지만 이미지가 인쇄될 상자의 크기( mm또는 inch)는 제공하지 않으므로 해상도를 얻을 수 없습니다.

그러나 개체 ID( 8 0위)에서 컨테이너의 크기를 확인할 수 있습니다.

$ mutool show scan.pdf grep | grep 'Im0 8 0'
scan.pdf:3: <</Contents 4 0 R/CropBox[0 0 595 842]/MediaBox[0 0 595 842]/Parent 2 0 R/Resources<</XObject<</Im0 8 0 R>>/ProcSet 6 0 R>>/Thumb 11 0 R/Type/Page>>

따라서 여기서는 이미지가 595x842pt(1/72인치 지점)로 렌더링되었음을 알 수 있습니다.

따라서 x 및 y 해상도를 도출할 수 있습니다.

$ echo "$((1219 * 72 / 595))dpi" "$((1707 * 72 / 842))dpi"
147dpi 145dpi

JPG로 포함된 경우 이미지에 해상도를 지정하는 EXIF ​​헤더가 있을 수 있습니다.

이미지를 추출하여 이를 확인할 수 있습니다.

$ exiftool -XResolution -YResolution <(qpdf --show-object=8 --raw-stream-data scan.pdf)
X Resolution                    : 72
Y Resolution                    : 72

하지만 여기서는 일치하지 않습니다.

또한 이미지를 추출하여 pdfimagesOCR로 전달할 수도 있으므로 래스터 이미지로 변환하기 전에 해상도를 결정할 필요가 없습니다.

관련 정보