
PDFを開くと、ページの背景が表示されることがよくあります。前にテキスト要素または写真が表示されます。
これは私にとって不可解なことです。なぜなら、これらの PDF の多くは古い図書館の本の Google スキャンから来ているからです。多層 PSD ではないからです。多層 PSD はまさにそのように動作するようです。テキストと写真の要素がスキャンから文字通り削除され、背景が空きスペースに広げられ、その後テキストと写真がベクター化されて背景に重ねられているのでしょうか。実際、何が起こっているのでしょうか。
答え1
これは、OCR ソフトウェアを使用して画像を自動的にテキストに変換しているためである可能性があります。これは、OCR 機能を備えた Xerox スキャナで教科書のページをスキャンしたときに発生します。多くの場合、結果として得られる PDF ファイルのテキストは正確でなかったり、余分なスペースがあったり、完全に異なるレイヤーにあったりすることがあります。