
¿Qué tan confiable es un flujo de trabajo de publicación LaTeX (XeTeX) que depende de Pandoc para manejar envíos en formato .docx de versiones recientes de Word? Puedo anticipar envíos con una buena cantidad de matemáticas, fórmulas y símbolos producidos por el Editor de ecuaciones de Word. ¿Pandoc los convierte de manera confiable a LaTeX/XeTeX en la mayoría de los casos? ¿Existen tipos específicos de casos o expresiones en los que Pandoc generalmente falla?
(El ejemplo matemático con una fórmula proporcionada en la documentación de Pandoc se convierte bien de .docx a LaTeX por Pandoc. Por lo tanto, funciona en un ejemplo de trabajo mínimo. Pero quiero conocer la gama completa de resultados del Editor de ecuaciones de Word, y no ¡No tengo un ejemplo máximo que posiblemente no funcione!)
Respuesta1
En mi experiencia, la conversión de matemáticas de docx a LaTeX funciona bien, siempre que el documento utilice el nuevo editor de ecuaciones (ahora estándar), no la antigua ecuación 3.0, o como se llame, que todavía es compatible con el formato docx.
Un problema proviene de los símbolos utf-8, como las letras griegas, que a veces aparecen en el documento convertido en su forma original, no en su equivalente en látex. Esto se puede resolver fácilmente con un script de reemplazo que pueda manejar estos símbolos.
Otros problemas surgen de formatos complejos, por ejemplo, encabezados, notas a pie de página, etc. Supongo que todas estas conversiones se implementan bien, sin embargo, en un documento de Word real, los autores a menudo no utilizan el formato de manera consistente o incluso incorrectamente. Por ejemplo, algunos encabezados de bajo nivel pueden usarse en Word "equivalentemente" a negrita ("equivalentemente" en el sentido de que la salidaaspectolo mismo). Cuando se convierte a látex, este texto se reemplaza, por ejemplo, por a \subsubsection
, lo que obviamente no era la intención.
Aparte de eso, las versiones anteriores de Word contienen algunas "etiquetas" internas que todavía son compatibles con las nuevas versiones; sin embargo, cuando pandoc las encuentra, se eliminan por completo. En mi experiencia, este fue el caso con algunas etiquetas de conversión de unidades que permiten convertir automáticamente el documento de unidades métricas a imperiales, etc. Si bien esto puede parecer un escenario poco probable, tenga en cuenta que Word 2007 incluye estas etiquetas automáticamente, sin la autorización del escritor. conocimiento.
TLDR: Pandoc es una gran herramienta (en mi opinión, la mejor entre el software libre), sin embargo, es posible que se requiera una gran cantidad de trabajo manual después de la conversión. Además, es necesaria la revisión.
Nota: Esta es mi experiencia personal, no soy un experto en pandoc. Quizás algunos de estos problemas puedan solucionarse con una configuración adecuada.