
Wie zuverlässig ist ein LaTeX (XeTeX)-Veröffentlichungsworkflow, der von Pandoc abhängt, um Einreichungen im .docx-Format aus aktuellen Word-Versionen zu verarbeiten? Ich kann Einreichungen mit einer Menge Mathematik, Formeln und Symbolen erwarten, die vom Formeleditor von Word erstellt werden. Konvertiert Pandoc sie in den meisten Fällen zuverlässig in LaTeX/XeTeX? Gibt es bestimmte Arten von Fällen oder Ausdrücken, bei denen Pandoc im Allgemeinen versagt?
(Das in der Pandoc-Dokumentation bereitgestellte mathematische Beispiel mit einer Formel wird von Pandoc problemlos von .docx nach LaTeX konvertiert. Es funktioniert also mit einem minimalen funktionierenden Beispiel. Aber ich möchte etwas über die gesamte Bandbreite der Ausgabe des Formeleditors von Word wissen und habe kein maximales Beispiel, das möglicherweise nicht funktioniert!)
Antwort1
Meiner Erfahrung nach funktioniert die Konvertierung mathematischer Daten von docx nach LaTeX gut, vorausgesetzt, das Dokument verwendet den neuen (jetzt standardmäßigen) Gleichungseditor und nicht die alte Gleichung 3.0 – oder wie auch immer der Name lautet –, die im docx-Format weiterhin unterstützt wird.
Ein Problem sind UTF-8-Symbole, wie griechische Buchstaben, die im konvertierten Dokument manchmal in der Originalform und nicht in der Latex-Version erscheinen. Dies lässt sich ganz einfach mit einem Ersetzungsskript lösen, das diese Symbole verarbeiten kann.
Andere Probleme entstehen durch komplexe Formatierungen, z. B. Überschriften, Fußnoten usw. Ich vermute, dass all diese Konvertierungen gut umgesetzt sind, aber in einem echten Word-Dokument verwenden die Autoren die Formatierungen oft entweder nicht einheitlich oder sogar falsch. Beispielsweise können einige Überschriften auf niedriger Ebene in Word „äquivalent“ zu einer Fettschrift verwendet werden („äquivalent“ in dem Sinne, dass die Ausgabesieht ausdas gleiche). Bei der Konvertierung nach Latex wird dieser Text z. B. durch ein ersetzt \subsubsection
, was offensichtlich nicht beabsichtigt war.
Abgesehen davon enthalten ältere Versionen von Word einige interne „Labels“, die von den neuen Versionen noch unterstützt werden, aber bei pandoc vollständig gelöscht werden. Meiner Erfahrung nach war dies bei einigen Einheitenumrechnungs-Tags der Fall, die eine automatische Umrechnung des Dokuments von metrischen in imperiale Einheiten usw. ermöglichen. Obwohl dies wie ein nicht sehr wahrscheinliches Szenario erscheinen mag, beachten Sie, dass Word 2007 diese Tags automatisch und ohne Wissen des Autors einfügt.
Kurz zusammengefasst: Pandoc ist ein großartiges Tool (meiner Meinung nach das beste unter den kostenlosen Programmen), allerdings kann nach der Konvertierung eine Menge Handarbeit erforderlich sein. Außerdem ist Korrekturlesen erforderlich.
Notiz: Dies ist meine persönliche Erfahrung, ich bin kein Pandoc-Experte. Vielleicht können einige dieser Probleme durch eine entsprechende Konfiguration gelöst werden.