Pós-processamento de imagem: Unpaper

Pós-processamento de imagem: Unpaper

Eu tento fazerRetire o papelpara funcionar, é uma ferramenta muito poderosa para pós-processar páginas de livros digitalizadas. Eu li o documento, mas ainda não consigo fazê-lo funcionar nem no Windows nem no Linux. Minha imagem é um bitmap que converti para o formato .pbm com o Gimp (também tentei pgm e pnm). Então eu uso este comando:

unpaper -l double --pre-rotate -90 inputFile.pbm outputFile.pbm

(-l double significa que tenho 2 páginas em uma folha e --pre-rotate -90 vira a imagem para a esquerda)

Deveria fazer algo assim:

insira a descrição da imagem aqui

Mas meu arquivo de saída não tem diferenças entre os de entrada, apenas girado.

Responder1

Finalmente descobri o problema. O problema foi a conversão para o formato .pbm feita pelo Gimp (v2.6.11). O arquivo convertido não era binário (apenas pixels brancos ou pretos), enquanto a Wikipedia diz "PBM é para bitmaps (preto e branco, sem cinzas)". Então eu useiImagemMagickpara a conversão e agora o unpaper funciona perfeitamente e tenho excelentes resultados com o tesseract 3.

informação relacionada