Tesseract OCR：不支援的影像類型

Question

我猜你正在關注邁克爾·利斯納的帖子在 Tesseract 中新增自訂字體。

我嘗試了同樣的事情（convert命令），但得到了一個損壞的 TIFF，無法用任何應用程式打開。

所以我選擇了 GUI 替代方案。我在 Scribus 中編寫文字（因為它允許我增加字元之間的間距），然後直接從文件-出口-另存為影像菜單。我選擇了 300 DPI 解析度。

您還可以嘗試什麼：

GIMP 開啟可另存為 TIFF 的 PDF
Ghostscript：（gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>如果是這種情況，它會轉換所有頁面）

您還可能遇到哪些其他問題：

Linux：如果你安裝了 Tesseract 的 repo 版本（至少在 Ubuntu 中），你將沒有所需的可執行檔：unicharset_extractor並且mftraining（或者它們不在路徑中，因為套件應該包括他們）。

Answer 1

我猜你正在關注邁克爾·利斯納的帖子在 Tesseract 中新增自訂字體。

我嘗試了同樣的事情（convert命令），但得到了一個損壞的 TIFF，無法用任何應用程式打開。

所以我選擇了 GUI 替代方案。我在 Scribus 中編寫文字（因為它允許我增加字元之間的間距），然後直接從文件-出口-另存為影像菜單。我選擇了 300 DPI 解析度。

您還可以嘗試什麼：

GIMP 開啟可另存為 TIFF 的 PDF
Ghostscript：（gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>如果是這種情況，它會轉換所有頁面）

您還可能遇到哪些其他問題：

Linux：如果你安裝了 Tesseract 的 repo 版本（至少在 Ubuntu 中），你將沒有所需的可執行檔：unicharset_extractor並且mftraining（或者它們不在路徑中，因為套件應該包括他們）。

相關內容