Я пытаюсь сделатьНебумажныйдля работы, это очень мощный инструмент для постобработки отсканированных страниц книг. Я прочитал Doc, но все еще не могу заставить его работать ни на Windows, ни на Linux. Моя картинка — это Bitmap, который я преобразовал в формат .pbm с помощью Gimp (также пробовал pgm и pnm). Затем я использую эту команду:
unpaper -l double --pre-rotate -90 inputFile.pbm outputFile.pbm
(-l double означает, что у меня 2 страницы на одном листе, а --pre-rotate -90 поворачивает изображение влево)
Это должно сделать что-то вроде этого:
Но мой выходной файл не имеет никаких отличий от входного, он просто повернут.
решение1
Я наконец-то нашел проблему. Проблема была в конвертации в формат .pbm, сделанной Gimp (v2.6.11). Конвертированный файл не был двоичным (только белые или черные пиксели), тогда как Википедия говорит: "PBM — для растровых изображений (черно-белых, без оттенков серого)". Поэтому я использовалImageMagickдля преобразования и теперь unpaper работает отлично, и у меня отличные результаты с tesseract 3.