
Насколько надежен рабочий процесс публикации LaTeX (XeTeX), который зависит от Pandoc для обработки представлений в формате .docx из последних версий Word? Я могу ожидать представления с изрядным количеством математики, формул и символов в них, созданных редактором формул Word. Надежно ли Pandoc преобразует их в LaTeX/XeTeX в большинстве случаев? Существуют ли особые виды случаев или выражений, в которых Pandoc обычно терпит неудачу?
(Математический пример с одной формулой, представленный в документации Pandoc, хорошо конвертируется из .docx в LaTeX компанией Pandoc. Поэтому он работает на минимальном рабочем примере. Но я хочу знать о полном диапазоне вывода редактора формул Word, а у меня нет максимального, возможно, нерабочего примера!)
решение1
По моему опыту, преобразование математических формул из docx в LaTeX работает хорошо, при условии, что в документе используется новый (теперь стандартный) редактор формул, а не старый formula 3.0 (или как там его зовут), который по-прежнему поддерживается в формате docx.
Одна из проблем возникает из-за символов utf-8, таких как греческие буквы, которые иногда появляются в преобразованном документе в исходной форме, а не в эквиваленте latex. Это можно довольно легко решить с помощью скрипта замены, который может обрабатывать эти символы.
Другие проблемы возникают из-за сложного форматирования, например заголовков, сносок и т. д. Я полагаю, что все эти преобразования реализованы хорошо, однако в реальном документе Word авторы часто либо не используют форматирование последовательно, либо даже неправильно. Например, некоторые заголовки низкого уровня могут быть в Word использованы "эквивалентно" жирному шрифту ("эквивалентно" в том смысле, что выводвыглядитто же самое). При преобразовании в латекс этот текст заменяется, например, на \subsubsection
, что, очевидно, не было намерением.
Кроме этого, старые версии Word содержат некоторые внутренние "метки", которые все еще поддерживаются новыми версиями, однако, когда их встречает pandoc, они полностью удаляются. По моему опыту, это было в случае с некоторыми тегами преобразования единиц, которые позволяют автоматически преобразовывать документ из метрических в имперские единицы и т. д. Хотя это может показаться не очень вероятным сценарием, обратите внимание, что Word 2007 включает эти теги автоматически, без ведома автора.
Краткий обзор: Pandoc — отличный инструмент (по моему мнению, лучший среди бесплатных программ), однако после конвертации может потребоваться изрядное количество ручной работы. Также необходима вычитка.
Примечание: Это мой личный опыт, я не эксперт по pandoc. Возможно, некоторые из этих проблем можно решить с помощью правильной конфигурации.