舊圖書館書籍的 PDF...為什麼文本和背景似乎位於不同的圖層?

舊圖書館書籍的 PDF...為什麼文本和背景似乎位於不同的圖層?

通常,當我開啟 PDF 時,我會看到頁面的背景出現,出現文字元素或照片。

這讓我感到困惑,因為這些 PDF 中有許多來自舊圖書館書籍的 Google 掃描…而不是多層 PSD,而這正是它們的表現方式。文字和照片元素是否從掃描中刪除——背景分佈在空白區域——然後文字和照片被向量化並分層回到背景上?究竟發生了什麼事?

答案1

這可能是由於 OCR 軟體被用來自動將圖像轉換為文字。當我使用具有 OCR 功能的 Xerox 掃描器掃描教科書頁面時,會發生這種情況。通常,生成的 PDF 文件中的文字可能不準確,或者有多餘的空格,或者完全位於不同的圖層上!

相關內容