
Quão confiável é um fluxo de trabalho de publicação em LaTeX (XeTeX) que depende do Pandoc para lidar com envios em formato .docx de versões recentes do Word? Posso antecipar envios com uma boa quantidade de matemática, fórmulas e símbolos produzidos pelo Editor de Equações do Word. O Pandoc os converte de forma confiável para LaTeX/XeTeX na maioria dos casos? Existem tipos específicos de casos ou expressões nos quais o Pandoc geralmente falha?
(O exemplo matemático com uma fórmula fornecida na documentação do Pandoc é bem convertido de .docx para LaTeX pelo Pandoc. Portanto, funciona em um exemplo mínimo de trabalho. Mas quero saber sobre toda a gama de resultados do Editor de Equações do Word, e não não tenho um exemplo máximo possivelmente não funcional!)
Responder1
Na minha experiência, a conversão de matemática de docx para LaTeX funciona bem, desde que o documento use o novo editor de equações (agora padrão), não a antiga equação 3.0 - ou qualquer que seja o nome - que ainda é compatível com o formato docx.
Um problema vem dos símbolos utf-8, como letras gregas, que às vezes aparecem no documento convertido na forma original, e não no equivalente em látex. Isso pode ser facilmente resolvido por um script de substituição que possa lidar com esses símbolos.
Outros problemas surgem de formatações complexas, por exemplo, títulos, notas de rodapé, etc. Acho que todas essas conversões são bem implementadas, porém, em um documento Word real, os autores muitas vezes não usam a formatação de forma consistente ou até mesmo de forma errada. Por exemplo, algum título de baixo nível pode ser usado no Word "equivalentemente" a negrito ("equivalente" no sentido de que a saídavisualo mesmo). Quando convertido para latex, este texto é substituído, por exemplo, por a \subsubsection
, o que obviamente não era a intenção.
Fora isso, versões mais antigas do Word contêm alguns "rótulos" internos, que ainda são suportados pelas novas versões, porém, quando encontrados pelo pandoc, eles são completamente eliminados. Na minha experiência, este foi o caso de algumas tags de conversão de unidades que permitem converter automaticamente o documento de unidades métricas para unidades imperiais, etc. Embora isto possa parecer um cenário não muito provável, observe que o Word 2007 inclui essas tags automaticamente, sem a permissão do escritor. conhecimento.
TLDR: Pandoc é uma ótima ferramenta (na minha opinião a melhor entre os softwares livres), porém, pode ser necessário bastante trabalho manual após a conversão. Além disso, a revisão é necessária.
Observação: Esta é minha experiência pessoal, não sou especialista em pandoc. Talvez alguns desses problemas possam ser resolvidos com uma configuração adequada.