![如何從 prc 檔案中提取文本](https://rvso.com/image/1325971/%E5%A6%82%E4%BD%95%E5%BE%9E%20prc%20%E6%AA%94%E6%A1%88%E4%B8%AD%E6%8F%90%E5%8F%96%E6%96%87%E6%9C%AC.png)
我想從prc
Linux 下的(無 DRM)文件中獲取所有文字。有什麼工具可以做到這一點嗎?解壓縮epub
檔案只是一個prc
,所以我希望文件也有類似的技巧/工具prc
。
答案1
您實際上看到的是 PalmOS“可執行”文件格式,它(出於我無法理解的原因)已重新用作“Mobipocket”的電子書格式。看這裡有關文件格式的背景和低級描述。
既然您斷言原始檔案是不是DRMed,這意味著所有文字都以可隨時轉換的格式存在於某處。因此,您所需要的只是一個能夠正確讀取資料的庫。
我最喜歡的 Linux 上用於在不同電子書格式之間進行轉換(或完全脫離電子書格式)的程式是口徑-- 它確實支援未加密的prc
檔案。
如果 Calibre 本身無法將文字提取為您可以使用的格式,而只能將其轉換為您無法使用的格式,那麼我建議您查看 calibre 用作讀取prc
文件的依賴項的低級庫。然後,您可以使用該庫中的範例程式碼來開發一個工具來讀取高層級的 PRC 數據,確定文字的位置,並將其寫入檔案。如果您是開發人員,這應該相當簡單。
這是一個很好的問題。 +1。
答案2
Kindle解包效果很好。這是可從 GitHub 下載。
也可以看看:KindleUnpack (MobiUnpack):從 Kindle/Mobi 檔案中提取文字、圖片和元數據在 MobileRead 論壇上。