나는 만들려고 노력한다종이를 풀다작동하려면 스캔한 책 페이지를 후처리하는 매우 강력한 도구입니다. 문서를 읽었지만 여전히 Windows나 Linux에서 작동하도록 할 수 없습니다. 내 사진은 Gimp를 사용하여 .pbm 형식으로 변환한 비트맵입니다(pgm 및 pnm도 시도함). 그런 다음 다음 명령을 사용합니다.
unpaper -l double --pre-rotate -90 inputFile.pbm outputFile.pbm
(-l double은 한 시트에 2페이지가 있다는 뜻이고 --pre-rotate -90은 이미지를 왼쪽으로 바꿉니다)
다음과 같이 수행되어야 합니다.
하지만 내 출력 파일은 입력 사이에 차이가 없으며 단지 회전되었습니다.
답변1
마침내 문제를 발견했습니다. 문제는 Gimp(v2.6.11)에서 수행한 .pbm 형식으로의 변환이었습니다. 변환된 파일은 바이너리가 아니었지만(흰색 또는 검은색 픽셀만) Wikipedia에서는 "PBM은 비트맵용입니다(흑백, 회색 없음).". 그래서 나는이미지매직변환을 위해 이제 unpaper가 완벽하게 작동하며 tesseract 3에서 탁월한 결과를 얻었습니다.