Часто ли Pandoc дает сбой при конвертации формул/математики из Word/.docx в TeX?

Часто ли Pandoc дает сбой при конвертации формул/математики из Word/.docx в TeX?

Насколько надежен рабочий процесс публикации LaTeX (XeTeX), который зависит от Pandoc для обработки представлений в формате .docx из последних версий Word? Я могу ожидать представления с изрядным количеством математики, формул и символов в них, созданных редактором формул Word. Надежно ли Pandoc преобразует их в LaTeX/XeTeX в большинстве случаев? Существуют ли особые виды случаев или выражений, в которых Pandoc обычно терпит неудачу?

(Математический пример с одной формулой, представленный в документации Pandoc, хорошо конвертируется из .docx в LaTeX компанией Pandoc. Поэтому он работает на минимальном рабочем примере. Но я хочу знать о полном диапазоне вывода редактора формул Word, а у меня нет максимального, возможно, нерабочего примера!)

решение1

По моему опыту, преобразование математических формул из docx в LaTeX работает хорошо, при условии, что в документе используется новый (теперь стандартный) редактор формул, а не старый formula 3.0 (или как там его зовут), который по-прежнему поддерживается в формате docx.

Одна из проблем возникает из-за символов utf-8, таких как греческие буквы, которые иногда появляются в преобразованном документе в исходной форме, а не в эквиваленте latex. Это можно довольно легко решить с помощью скрипта замены, который может обрабатывать эти символы.

Другие проблемы возникают из-за сложного форматирования, например заголовков, сносок и т. д. Я полагаю, что все эти преобразования реализованы хорошо, однако в реальном документе Word авторы часто либо не используют форматирование последовательно, либо даже неправильно. Например, некоторые заголовки низкого уровня могут быть в Word использованы "эквивалентно" жирному шрифту ("эквивалентно" в том смысле, что выводвыглядитто же самое). При преобразовании в латекс этот текст заменяется, например, на \subsubsection, что, очевидно, не было намерением.

Кроме этого, старые версии Word содержат некоторые внутренние "метки", которые все еще поддерживаются новыми версиями, однако, когда их встречает pandoc, они полностью удаляются. По моему опыту, это было в случае с некоторыми тегами преобразования единиц, которые позволяют автоматически преобразовывать документ из метрических в имперские единицы и т. д. Хотя это может показаться не очень вероятным сценарием, обратите внимание, что Word 2007 включает эти теги автоматически, без ведома автора.


Краткий обзор: Pandoc — отличный инструмент (по моему мнению, лучший среди бесплатных программ), однако после конвертации может потребоваться изрядное количество ручной работы. Также необходима вычитка.

Примечание: Это мой личный опыт, я не эксперт по pandoc. Возможно, некоторые из этих проблем можно решить с помощью правильной конфигурации.

Связанный контент