複雑なLaTeX文書からテキストコンテンツをエクスポートする

複雑なLaTeX文書からテキストコンテンツをエクスポートする

複数セクションの参考文献 (biblatex) を含む、大きくて複雑な LaTeX ドキュメント (XeLaTeX) があります。結果のテキスト コンテンツをプレーン テキストにエクスポートしたいと考えています。および類似のツールからの出力には、追加の改行とハイフンが含まれています。完全な参考文献が必要なため、または類似のツールもpdf2text使用できません。detex

私が思いつく唯一のアイデアは、非常に大きなページ サイズ (1 段落につき 1 行) でドキュメントをエクスポートし、pdf2textその後で作成することです (MWE を参照)。もっと洗練された解決策があるかもしれません。

\documentclass{article}
\usepackage{biblatex}
\usepackage[paperwidth=50in, paperheight=8.5in, left=1in]{geometry}

\begin{filecontents}{literatur.bib}

@ARTICLE{Reitman2015,
     author = {Reitman, N. G. and Bennett, S. E. and Gold, R. D. and Briggs, R. W. and DuRoss, C. B.},
      title = {Транзитная фотомозаика высокого разрешения из моделирования на основе изображений: анализ рабочих процессов и ошибок},
    journal = {Bulletin of the Seismological Society of America},
       year = {2015},
     volume = {105},
      pages = {2354-2366}
}


\end{filecontents}

\addbibresource{literatur.bib}

\begin{document}

Проверка

\thispagestyle{empty}

\nocite{Reitman2015}

\printbibliography

\end{document} 

答え1

ドキュメントを HTML に変換し、その後 HTML ファイルをテキストに変換できます。TeX4ht は XeLaTeX と BibLaTeX の両方をサポートしていますが、非ラテン アルファベットをサポートするには設定が必要です。

次のコードを次のように保存しますmyconfig.cfg

\Preamble{xhtml}
\xeuniuseblock{Cyrillic}
\begin{document}
\EndPreamble

この\xeuniuseblockコマンドは、指定されたUnicode文字の宣言をロードします。ユニコードブロック参考文献にギリシャ語やアラビア語が記載されている場合は、同様のコマンドが必要になります。

変換は次のコマンドを使用して実行できます。

make4ht -uxm draft -c myconfig.cfg filename.tex
biber filename
make4ht -uxm draft -c myconfig.cfg filename.tex
pandoc filename.html -t plain -o filename.txt

結果は次のとおりです。

Проверка

References

 [1] 

    N. G. Reitman et al. “Транзитная фотомозаика высокого разрешения из
    моделирования на основе изображений: анализ рабочих процессов и
    ошибок”. In: Bulletin of the Seismological Society of America 105
    (2015), pp. 2354–2366.

関連情報