逐頁閱讀 MS Word (doc) 文件

逐頁閱讀 MS Word (doc) 文件

有沒有辦法讓 wvWare (或其他可能的命令列工具,或 Python 函式庫)逐頁讀取 doc 檔案?我似乎在 wvWare 的手冊中找不到任何內容,在 Abiword、Antiword 或 catdoc 中也找不到。

答案1

一種極其醜陋的方法是在原始文件中尋找 ^L 並找出它們在文字中出現的位置(非 docx Word 文件大多是純文字:我有時使用該strings命令來讀取內容)。

^L 是 control-L,字元代碼 12,有時稱為「換頁」。如果您在 emacs(或任何顯示控製程式碼的編輯器)中查看原始 Word 文檔,您將在每個頁面的末尾看到其中一個。

相關內容