Gostaria de poder digitalizar documentos em papel para arquivos PDF e tornar o texto pesquisável. Acredito que o programa Tesseract possa ajudar nisso, mas não sei como começar e não sei qual seria o melhor programa para usar.
Alguém está criando arquivos PDF pesquisáveis com sucesso?
Responder1
Posso recomendar ocrmypdf
, vejahttps://github.com/ocrmypdf/OCRmyPDF, também empacotado para Ubuntu. Você pode instalá-lo executando:
sudo apt install ocrmypdf
Você pode usá-lo da seguinte maneira:
ocrmypdf -l eng infile.pdf outfile.pdf
A ocrmypdf
chamada acima é simples e especifica o idioma do documento como inglês ( -l eng
). Existem muitas opções noman
página; você pode querer descobri-los conforme necessário ao longo do tempo.