
큰 웹페이지의 작은 영역을 pdflatex로 컴파일된 문서에 삽입하려고 합니다( \includegraphics
). 래스터 이미지/스크린샷은 확대할 때 아티팩트를 생성하므로 대신 브라우저의 인쇄 대화 상자를 사용하여 페이지를 PDF로 저장하고 필요한 섹션을 자릅니다.
$ pdfcrop --margins "-50 -65 -40 -400" full-page.pdf area.pdf
이 도구는 경계 상자를 변경하고 원하는 결과를 생성합니다.시각적모습. 그러나 파일은 원본의 모든 내용을 보존합니다.
$ ls -lh *.pdf
-rw-rw-r-- 1 user group 7.1M Apr 27 14:48 area.pdf
-rw------- 1 user group 7.1M Apr 27 14:02 full-page.pdf
경계 상자 외부에 개인 정보가 포함되어 있는데 잘린 PDF에 없는지 확인하고 싶습니다(사용자 이름, 타임스탬프, ID 등). 원본 문서에 ASCII 일반 텍스트 문자열(예: 내 사용자 이름)이 주어지면 해당 문자열이 PDF에 있는지 어떻게 알 수 있습니까? 페이지의 ASCII 텍스트가 문자 그대로 포함되거나 벡터 형식으로 인코딩될 것으로 예상할 수 있습니까?
직관적으로 브라우저는 인쇄된 PDF를 예측 가능한 방식으로 인코딩할 수 있고 DOM에 직접 매핑되는 경우 영역을 자르기가 쉽기 때문에 파일이 브라우저에서 나온다고 언급했습니다.
pdf2ps 실험
pdf를 ps로 변환한 후 다시(pdf2ps, ps2pdf) 변환하여 파일 크기를 크게 줄였지만 파일 내용을 해석하는 방법을 정확히 모르거나 해당 변환에 관련된 내용을 알지 못한 채 다음과 같은 작업을 수행할 수 있습니다. 제거하려는 콘텐츠가 마침내 사라졌는지, 숨겨졌는지, 아니면 단순히 공간적으로 다시 최적화/압축되었는지 확실하지 않습니다.
$ pdf2ps area.pdf && ps2pdf area.ps
$ ls -lh *.pdf
-rw-rw-r-- 1 user group 259K Apr 27 14:59 area.pdf
-rw------- 1 user group 7.1M Apr 27 14:02 full-page.pdf
초기 페이지는 몇 가지 아이콘을 제외하고 대부분 글꼴과 선으로 구성되어 있습니다. 그러나 글꼴은 CJK입니다. 결국 모든 것은 어떤 규모에서도 좋아 보이기 때문에 벡터 경로는 변환을 통해 보존되는 것 같습니다.
편집하다: 다음의 관점에서 질문을 바꿔서 설명합니다.비슷한 질문pdfcrop을 사용하여 콘텐츠 제거에 대해 설명합니다(여기에 글을 쓰기 전에 검색에서 해당 내용을 놓쳤습니다). 나는 텍스트 데이터 중 일부가~ 아니다이 시점에서 PDF에. 사용자가 관련 문서 삽입 및 기본 형식에 대해 잘 알고 있기 때문에 이 커뮤니티에 문의하는 것입니다.