
最新バージョンの Word からの .docx 形式の投稿を処理するために Pandoc に依存する LaTeX (XeTeX) 公開ワークフローの信頼性はどの程度ですか? Word の数式エディターによって生成された、かなりの量の数式、式、記号を含む投稿が予想されます。ほとんどの場合、Pandoc はそれらを確実に LaTeX/XeTeX に変換しますか? Pandoc が通常失敗する特定の種類のケースまたは式はありますか?
(Pandoc のドキュメントで提供されている 1 つの数式を含む数学の例は、Pandoc によって .docx から LaTeX に適切に変換されます。したがって、最小限の動作例では動作します。ただし、Word の数式エディターからの出力の全範囲について知りたいのですが、最大限に動作しない可能性のある例はありません。)
答え1
私の経験では、docx から LaTeX への数式変換は、ドキュメントが古い数式 3.0 (または名前が何であれ) ではなく、新しい (現在の標準) 数式エディタを使用している場合にうまく機能します。古い数式 3.0 は、docx 形式で引き続きサポートされています。
1 つの問題は、ギリシャ文字などの UTF-8 記号から発生します。これらの記号は、LaTeX の同等の形式ではなく、変換されたドキュメントに元の形式で表示されることがあります。この問題は、これらの記号を処理できる置換スクリプトによって簡単に解決できます。
他にも、見出しや脚注などの複雑な書式設定から問題が起こります。これらの変換はすべて適切に実装されていると思いますが、実際の Word 文書では、作成者が書式設定を一貫して使用しなかったり、間違って使用したりすることが多々あります。たとえば、低レベルの見出しは、Word では太字と「同等」に使用できます (「同等」とは、出力が太字になるという意味です)。見た目同じです。LaTeX に変換すると、このテキストは などに置き換えられますが\subsubsection
、これは明らかに意図したものではありません。
それ以外にも、Word の古いバージョンには、新しいバージョンでもサポートされている内部の「ラベル」がいくつか含まれていますが、pandoc によって検出された場合は完全に削除されます。私の経験では、これは、文書をメートル法からヤードポンド法などに自動的に変換できる単位変換タグの場合に当てはまりました。これはあまりありそうもないシナリオのように見えるかもしれませんが、Word 2007 では、作成者が知らないうちにこれらのタグが自動的に含まれることに注意してください。
要約: Pandoc は素晴らしいツールです (私の意見では無料ソフトウェアの中では最高です)。ただし、変換後には、かなりの量の手作業が必要になる場合があります。また、校正も必要です。
注記: これは私の個人的な経験であり、私は pandoc の専門家ではありません。おそらく、これらの問題のいくつかは適切な設定によって解決できるでしょう。