Pandoc이 Word/.docx에서 수식/수학의 TeX 변환에 실패하는 경우가 많나요?

Pandoc이 Word/.docx에서 수식/수학의 TeX 변환에 실패하는 경우가 많나요?

최신 버전의 Word에서 .docx 형식의 제출물을 처리하기 위해 Pandoc을 사용하는 LaTeX(XeTeX) 게시 작업 흐름은 얼마나 안정적입니까? Word의 방정식 편집기에서 생성된 상당한 양의 수학, 수식 및 기호가 포함된 제출을 기대할 수 있습니다. Pandoc은 대부분의 경우 LaTeX/XeTeX로 안정적으로 변환합니까? Pandoc이 일반적으로 실패하는 특정 종류의 사례나 표현이 있습니까?

(Pandoc의 문서에 제공된 하나의 공식을 사용하는 수학 예제는 Pandoc에 의해 .docx에서 LaTeX로 잘 변환됩니다. 따라서 최소한의 작업 예제에서 작동합니다. 하지만 Word의 Equation Editor에서 출력되는 전체 범위에 대해 알고 싶습니다. 작동하지 않을 가능성이 있는 최대한의 예는 없습니다!)

답변1

내 경험에 따르면 문서가 이전 방정식 3.0 또는 이름이 무엇이든 여전히 docx 형식에서 지원되는 것이 아닌 새로운(현재 표준) 방정식 편집기를 사용하는 경우 수학의 docx에서 LaTeX로의 변환이 잘 작동합니다.

한 가지 문제는 그리스 문자와 같은 utf-8 기호에서 발생합니다. 이 기호는 때때로 라텍스와 동등한 형식이 아닌 변환된 문서에 원래 형식으로 나타납니다. 이는 이러한 기호를 처리할 수 있는 교체 스크립트를 통해 매우 쉽게 해결할 수 있습니다.

머리글, 각주 등과 같은 복잡한 서식으로 인해 다른 문제가 발생합니다. 이러한 변환은 모두 잘 구현되었지만 실제 Word 문서에서는 작성자가 서식을 일관되게 사용하지 않거나 심지어 잘못 사용하는 경우가 많습니다. 예를 들어, 일부 하위 수준 제목은 Word에서 굵은 글씨체로 "동등하게" 사용될 수 있습니다(출력이 "동등하게"라는 의미에서).외모똑같다). 라텍스로 변환되면 이 텍스트는 \subsubsection의도한 바가 아닌 a로 대체됩니다.

그 외에 이전 버전의 Word에는 새 버전에서도 여전히 지원되는 일부 내부 "레이블"이 포함되어 있지만 pandoc에서 발견하면 완전히 삭제됩니다. 내 경험에 따르면 문서를 미터법에서 영국식 단위 등으로 자동 변환할 수 있는 일부 단위 변환 태그의 경우가 그렇습니다. 가능성이 별로 없는 시나리오처럼 보일 수 있지만 Word 2007에는 작성자의 설명 없이 이러한 태그가 자동으로 포함되어 있습니다. 지식.


TLDR: Pandoc은 훌륭한 도구이지만(내 생각에는 무료 소프트웨어 중 최고라고 생각합니다) 변환 후에는 상당한 양의 수동 작업이 필요할 수 있습니다. 또한 교정도 필요합니다.

메모: 이것은 제 개인적인 경험이며, 팬독 전문가는 아닙니다. 아마도 이러한 문제 중 일부는 적절한 구성으로 해결될 수 있습니다.

관련 정보