從複雜的 LaTeX 文件中匯出文字內容

從複雜的 LaTeX 文件中匯出文字內容

我有一個大型且複雜的 LaTeX 文件(XeLaTeX),其中包含多節參考書目(biblatex)。我想將生成的文字內容匯出為純文字。pdf2text類似工具的輸出包含額外的新行和連字號。我也無法使用detex或類似的工具,因為我需要完整的參考書目。

我唯一的想法是匯出具有非常大頁面大小的文件(每段一行)並pdf2text在之後製作(請參閱MWE)。可能有更優雅的解決方案?

\documentclass{article}
\usepackage{biblatex}
\usepackage[paperwidth=50in, paperheight=8.5in, left=1in]{geometry}

\begin{filecontents}{literatur.bib}

@ARTICLE{Reitman2015,
     author = {Reitman, N. G. and Bennett, S. E. and Gold, R. D. and Briggs, R. W. and DuRoss, C. B.},
      title = {Транзитная фотомозаика высокого разрешения из моделирования на основе изображений: анализ рабочих процессов и ошибок},
    journal = {Bulletin of the Seismological Society of America},
       year = {2015},
     volume = {105},
      pages = {2354-2366}
}


\end{filecontents}

\addbibresource{literatur.bib}

\begin{document}

Проверка

\thispagestyle{empty}

\nocite{Reitman2015}

\printbibliography

\end{document} 

答案1

您可以將文件轉換為 HTML,然後將 HTML 文件轉換為文字。 TeX4ht 同時支援 XeLaTeX 和 BibLaTeX,但需要對其進行配置才能支援非拉丁字母。

將以下程式碼另存為myconfig.cfg

\Preamble{xhtml}
\xeuniuseblock{Cyrillic}
\begin{document}
\EndPreamble

\xeuniuseblock命令載入給定的 Unicode 字元的聲明統一碼區塊。如果參考書目中有類似的希臘語或阿拉伯語命令,您將需要它們。

可以使用以下命令完成轉換:

make4ht -uxm draft -c myconfig.cfg filename.tex
biber filename
make4ht -uxm draft -c myconfig.cfg filename.tex
pandoc filename.html -t plain -o filename.txt

這是結果:

Проверка

References

 [1] 

    N. G. Reitman et al. “Транзитная фотомозаика высокого разрешения из
    моделирования на основе изображений: анализ рабочих процессов и
    ошибок”. In: Bulletin of the Seismological Society of America 105
    (2015), pp. 2354–2366.

相關內容