我嘗試做拆紙為了工作,它是一個非常強大的工具,可以對掃描的書頁進行後處理。我閱讀了文檔,但仍然無法使其在 Windows 和 Linux 上運行。我的圖片是我用 Gimp 轉換為 .pbm 格式的點陣圖(也嘗試過 pgm 和 pnm)。然後我使用這個指令:
unpaper -l double --pre-rotate -90 inputFile.pbm outputFile.pbm
(-l double 表示我在一張紙上有 2 頁,並且 --pre-rotate -90 將圖像向左旋轉)
它應該要做這樣的事情:
但我的輸出檔與輸入沒有差異,只是旋轉了。
答案1
我終於發現這個問題了。問題是由 Gimp (v2.6.11) 完成的 .pbm 格式轉換。轉換後的檔案不是二進位的(只有白色或黑色像素),而維基百科說“PBM 用於點陣圖(黑白,無灰色)」。所以我用了圖像魔術師進行轉換,現在 unpaper 工作得非常好,我使用 tesseract 3 得到了很好的結果。