
PDF를 열면 페이지 배경이 나오는 경우가 종종 있는데,~ 전에텍스트 요소나 사진이 나타납니다.
이러한 PDF 중 상당수는 Google에서 오래된 도서관 도서를 스캔한 것에서 가져온 것이기 때문에 이는 저에게 당혹스럽습니다. 다중 레이어 PSD가 아니라 정확히 작동하는 것처럼 보입니다. 텍스트와 사진 요소가 문자 그대로 스캔에서 제거되고(배경이 빈 공간 위에 펼쳐지고) 텍스트와 사진이 벡터화되어 배경에 다시 레이어링됩니까? 실제로 무슨 일이 일어나고 있는 걸까요?
답변1
이는 이미지를 텍스트로 자동 변환하는 데 사용되는 OCR 소프트웨어 때문일 수 있습니다. OCR 기능이 있는 Xerox 스캐너로 교과서 페이지를 스캔할 때 이런 일이 발생합니다. 종종 결과 PDF 파일의 텍스트가 정확하지 않거나 추가 공간이 있거나 완전히 다른 레이어에 있는 경우가 있습니다.