
我有一個大型且複雜的 LaTeX 文件(XeLaTeX),其中包含多節參考書目(biblatex)。我想將生成的文字內容匯出為純文字。pdf2text
類似工具的輸出包含額外的新行和連字號。我也無法使用detex
或類似的工具,因為我需要完整的參考書目。
我唯一的想法是匯出具有非常大頁面大小的文件(每段一行)並pdf2text
在之後製作(請參閱MWE)。可能有更優雅的解決方案?
\documentclass{article}
\usepackage{biblatex}
\usepackage[paperwidth=50in, paperheight=8.5in, left=1in]{geometry}
\begin{filecontents}{literatur.bib}
@ARTICLE{Reitman2015,
author = {Reitman, N. G. and Bennett, S. E. and Gold, R. D. and Briggs, R. W. and DuRoss, C. B.},
title = {Транзитная фотомозаика высокого разрешения из моделирования на основе изображений: анализ рабочих процессов и ошибок},
journal = {Bulletin of the Seismological Society of America},
year = {2015},
volume = {105},
pages = {2354-2366}
}
\end{filecontents}
\addbibresource{literatur.bib}
\begin{document}
Проверка
\thispagestyle{empty}
\nocite{Reitman2015}
\printbibliography
\end{document}
答案1
您可以將文件轉換為 HTML,然後將 HTML 文件轉換為文字。 TeX4ht 同時支援 XeLaTeX 和 BibLaTeX,但需要對其進行配置才能支援非拉丁字母。
將以下程式碼另存為myconfig.cfg
:
\Preamble{xhtml}
\xeuniuseblock{Cyrillic}
\begin{document}
\EndPreamble
這\xeuniuseblock
命令載入給定的 Unicode 字元的聲明統一碼區塊。如果參考書目中有類似的希臘語或阿拉伯語命令,您將需要它們。
可以使用以下命令完成轉換:
make4ht -uxm draft -c myconfig.cfg filename.tex
biber filename
make4ht -uxm draft -c myconfig.cfg filename.tex
pandoc filename.html -t plain -o filename.txt
這是結果:
Проверка
References
[1]
N. G. Reitman et al. “Транзитная фотомозаика высокого разрешения из
моделирования на основе изображений: анализ рабочих процессов и
ошибок”. In: Bulletin of the Seismological Society of America 105
(2015), pp. 2354–2366.