如何從 prc 檔案中提取文本

如何從 prc 檔案中提取文本

我想從prcLinux 下的(無 DRM)文件中獲取所有文字。有什麼工具可以做到這一點嗎?解壓縮epub檔案只是一個prc,所以我希望文件也有類似的技巧/工具prc

答案1

您實際上看到的是 PalmOS“可執行”文件格式,它(出於我無法理解的原因)已重新用作“Mobipocket”的電子書格式。看這裡有關文件格式的背景和低級描述。

既然您斷言原始檔案是不是DRMed,這意味著所有文字都以可隨時轉換的格式存在於某處。因此,您所需要的只是一個能夠正確讀取資料的庫。

我最喜歡的 Linux 上用於在不同電子書格式之間進行轉換(或完全脫離電子書格式)的程式是口徑-- 它確實支援未加密的prc檔案。

如果 Calibre 本身無法將文字提取為您可以使用的格式,而只能將其轉換為您無法使用的格式,那麼我建議您查看 calibre 用作讀取prc文件的依賴項的低級庫。然後,您可以使用該庫中的範例程式碼來開發一個工具來讀取高層級的 PRC 數據,確定文字的位置,並將其寫入檔案。如果您是開發人員,這應該相當簡單。

這是一個很好的問題。 +1。

答案2

相關內容