Экспорт текстового содержимого из сложного документа LaTeX

Экспорт текстового содержимого из сложного документа LaTeX

У меня есть большой и сложный документ LaTeX (XeLaTeX) с многосекционной библиографией (biblatex). Я хочу экспортировать полученное текстовое содержимое в обычный текст. Вывод из pdf2textи подобных инструментов содержит дополнительные новые строки и дефисы. Я не могу использовать detexили подобный инструмент, потому что мне нужна полная библиография.

Единственная идея, которая у меня есть, это экспортировать документ с очень большим размером страницы (одна строка на абзац) и сделать pdf2textпосле (см. MWE). Может быть, есть более элегантное решение?

\documentclass{article}
\usepackage{biblatex}
\usepackage[paperwidth=50in, paperheight=8.5in, left=1in]{geometry}

\begin{filecontents}{literatur.bib}

@ARTICLE{Reitman2015,
     author = {Reitman, N. G. and Bennett, S. E. and Gold, R. D. and Briggs, R. W. and DuRoss, C. B.},
      title = {Транзитная фотомозаика высокого разрешения из моделирования на основе изображений: анализ рабочих процессов и ошибок},
    journal = {Bulletin of the Seismological Society of America},
       year = {2015},
     volume = {105},
      pages = {2354-2366}
}


\end{filecontents}

\addbibresource{literatur.bib}

\begin{document}

Проверка

\thispagestyle{empty}

\nocite{Reitman2015}

\printbibliography

\end{document} 

решение1

Вы можете преобразовать свой документ в HTML, а затем преобразовать HTML-файл в текст. TeX4ht поддерживает как XeLaTeX, так и BibLaTeX, но его необходимо настроить для поддержки нелатинских алфавитов.

Сохраните следующий код как myconfig.cfg:

\Preamble{xhtml}
\xeuniuseblock{Cyrillic}
\begin{document}
\EndPreamble

The\xeuniuseblock загружает объявления для символов Unicode для указанногоблок Юникода. Вам понадобятся аналогичные команды для греческого или арабского языков, если они есть в библиографии.

Преобразование можно выполнить с помощью следующих команд:

make4ht -uxm draft -c myconfig.cfg filename.tex
biber filename
make4ht -uxm draft -c myconfig.cfg filename.tex
pandoc filename.html -t plain -o filename.txt

Вот результат:

Проверка

References

 [1] 

    N. G. Reitman et al. “Транзитная фотомозаика высокого разрешения из
    моделирования на основе изображений: анализ рабочих процессов и
    ошибок”. In: Bulletin of the Seismological Society of America 105
    (2015), pp. 2354–2366.

Связанный контент