Eu tento fazerRetire o papelpara funcionar, é uma ferramenta muito poderosa para pós-processar páginas de livros digitalizadas. Eu li o documento, mas ainda não consigo fazê-lo funcionar nem no Windows nem no Linux. Minha imagem é um bitmap que converti para o formato .pbm com o Gimp (também tentei pgm e pnm). Então eu uso este comando:
unpaper -l double --pre-rotate -90 inputFile.pbm outputFile.pbm
(-l double significa que tenho 2 páginas em uma folha e --pre-rotate -90 vira a imagem para a esquerda)
Deveria fazer algo assim:
Mas meu arquivo de saída não tem diferenças entre os de entrada, apenas girado.
Responder1
Finalmente descobri o problema. O problema foi a conversão para o formato .pbm feita pelo Gimp (v2.6.11). O arquivo convertido não era binário (apenas pixels brancos ou pretos), enquanto a Wikipedia diz "PBM é para bitmaps (preto e branco, sem cinzas)". Então eu useiImagemMagickpara a conversão e agora o unpaper funciona perfeitamente e tenho excelentes resultados com o tesseract 3.