
依賴 Pandoc 處理來自最新版本 Word 的 .docx 格式提交的 LaTeX (XeTeX) 發布工作流程的可靠性如何?我可以預見提交的內容將包含由 Word 的公式編輯器產生的大量數學、公式和符號。在大多數情況下,Pandoc 是否可靠地將它們轉換為 LaTeX/XeTeX? Pandoc 通常會失敗的特定類型的案例或表達式是否存在?
(Pandoc 文件中提供的帶有一個公式的數學範例由 Pandoc 很好地從 .docx 轉換為 LaTeX。因此它適用於一個最小的工作範例。但我想了解 Word 公式編輯器的全部輸出,我不知道沒有一個最大的可能不起作用的例子!
答案1
根據我的經驗,數學的docx 到LaTeX 轉換效果很好,只要文件使用新的(現在標準的)方程式編輯器,而不是舊的方程式3.0(或無論名稱是什麼),後者在docx 格式中仍然受支持。
其中一個問題來自 utf-8 符號,例如希臘字母,它們有時會以原始形式出現在轉換後的文檔中,而不是乳膠等效形式。透過可以處理這些符號的替換腳本可以輕鬆解決這個問題。
其他問題是由複雜的格式引起的,例如標題、腳註等。例如,某些低階標題可以在 Word 中「等同」地使用為粗體(「等同」的意思是輸出看起來相同)。當轉換為乳膠時,該文字會被替換為 a \subsubsection
,這顯然不是本意。
除此之外,舊版的Word包含一些內部“標籤”,新版本仍然支援這些“標籤”,但是,當遇到pandoc時,它們會被完全刪除。根據我的經驗,某些單位轉換標籤就是這種情況,這些標籤允許自動將文件從公制單位轉換為英制單位等。 ,而無需作者的幫助。
總而言之: Pandoc 是一個很棒的工具(我認為是免費軟體中最好的),但轉換後可能需要大量的手動工作。另外,校對也是必要的。
筆記: 這是我的個人經驗,我不是 pandoc 專家。也許其中一些問題可以透過適當的配置來解決。