
Muitas vezes, quando abro um PDF, vejo o plano de fundo de uma página aparecer,antesos elementos de texto ou fotos aparecem.
Isso é desconcertante para mim, porque muitos desses PDFs vêm de digitalizações do Google de livros antigos da biblioteca... e não de PSDs de várias camadas, que é exatamente como eles parecem se comportar. Os elementos de texto e foto estão sendo literalmente removidos da digitalização - o fundo sendo espalhado sobre o espaço vazio - e depois o texto e as fotos sendo vetorizados e colocados de volta no fundo? O que realmente está acontecendo?
Responder1
Isso pode ser devido ao software OCR usado para converter imagem em texto automaticamente. Isso acontece quando digitalizo páginas de livros didáticos com meu scanner Xerox com capacidade de OCR. Muitas vezes, o texto do arquivo PDF resultante nem sequer é preciso ou tem espaços extras ou está em camadas completamente diferentes!