我想從prc
Linux 下的(無 DRM)文件中獲取所有文字。有什麼工具可以做到這一點嗎?解壓縮epub
檔案只是一個prc
,所以我希望文件也有類似的技巧/工具prc
。
答案1
您實際上看到的是 PalmOS“可執行”文件格式,它(出於我無法理解的原因)已重新用作“Mobipocket”的電子書格式。看這裡有關文件格式的背景和低級描述。
既然您斷言原始檔案是不是DRMed,這意味著所有文字都以可隨時轉換的格式存在於某處。因此,您所需要的只是一個能夠正確讀取資料的庫。
我最喜歡的 Linux 上用於在不同電子書格式之間進行轉換(或完全脫離電子書格式)的程式是口徑-- 它確實支援未加密的prc
檔案。
如果 Calibre 本身無法將文字提取為您可以使用的格式,而只能將其轉換為您無法使用的格式,那麼我建議您查看 calibre 用作讀取prc
文件的依賴項的低級庫。然後,您可以使用該庫中的範例程式碼來開發一個工具來讀取高層級的 PRC 數據,確定文字的位置,並將其寫入檔案。如果您是開發人員,這應該相當簡單。
這是一個很好的問題。 +1。
答案2
Kindle解包效果很好。這是可從 GitHub 下載。
也可以看看:KindleUnpack (MobiUnpack):從 Kindle/Mobi 檔案中提取文字、圖片和元數據在 MobileRead 論壇上。