
Quero fazer o OCR de um PDF para torná-lo pesquisável.
Suponha que você tenha um documento PDF criado com um scanner ou que consista em dados de imagem, mas não contenha dados de texto. Esse PDF não pode ser pesquisado por leitores de PDF ou aplicativos de pesquisa de desktop. pdfocr é um utilitário simples que criei que pega um arquivo PDF e depois gera um novo que tem a camada de texto adicionada, para que seja pesquisável pelo seu leitor de PDF e possa ser indexado pelo seu aplicativo de pesquisa de desktop, mas ainda seja idêntico quando impresso.
DeComo fazer: Tornar PDFs digitalizados pesquisáveis (OCR) usando pdfocr
Atualmente, softwares Windows como o FreeOCR só criam um arquivo TXT a partir do pdf, mas eu quero aquele pdf original apenas que sejapesquisável.
Responder1
Adobe Acrobat possui a funcionalidade a que você se refere. No Acrobat 10/11, a funcionalidade está na seção "Reconhecer texto" das ferramentas (consultedocumentação oficial). A mesma funcionalidade estava disponível em versões mais antigas, mas era acessada de maneira um pouco diferente (vejaBlog da Adobe).
Você pode executar o OCR em qualquer uma ou em todas as páginas individualmente e o PDF parecerá idêntico após a aplicação do OCR (mas poderá ser pesquisado).