Qual programa é adequado para tornar pesquisáveis ​​arquivos PDF digitalizados?

Qual programa é adequado para tornar pesquisáveis ​​arquivos PDF digitalizados?

Gostaria de poder digitalizar documentos em papel para arquivos PDF e tornar o texto pesquisável. Acredito que o programa Tesseract possa ajudar nisso, mas não sei como começar e não sei qual seria o melhor programa para usar.

Alguém está criando arquivos PDF pesquisáveis ​​com sucesso?

Responder1

Posso recomendar ocrmypdf, vejahttps://github.com/ocrmypdf/OCRmyPDF, também empacotado para Ubuntu. Você pode instalá-lo executando:

sudo apt install ocrmypdf

Você pode usá-lo da seguinte maneira:

ocrmypdf -l eng infile.pdf outfile.pdf

A ocrmypdfchamada acima é simples e especifica o idioma do documento como inglês ( -l eng). Existem muitas opções nomanpágina; você pode querer descobri-los conforme necessário ao longo do tempo.

informação relacionada