
文書のすべての段落、方程式、その他の視覚的に区別できる部分が、独自の背景色で強調表示される文書を作成したいと考えています (たとえば、方程式は青、表は赤、ヘッダーは緑で強調表示されるなど)。
さらに課題として、この手法を何千もの既存の LaTeX ドキュメントに適用したいと考えています。既存の LaTeX に複雑な変更を加える必要があるソリューションは実用的ではない可能性があります。
この質問を段落の色分けに関する質問として提示したのは、それが私が望むことを実現する簡単な方法かもしれないと思ったからです。しかし、ページ コンテンツを生成する各コマンドに関連付けられた境界ボックスを復元する方法であればどれでも機能します。たとえば、DVI ファイルまたは LaTeX ログから、LaTeX コマンドによって生成されたコンテンツのページ位置を復元する方法があるかもしれません。
私の最終的な目標は、自動ドキュメント処理の研究をサポートするデータ セットを作成することです。つまり、元のマークアップを必要とせずにページの画像を構造コンポーネントに解析できるアルゴリズムを作成したいと考えています。アルゴリズムをトレーニングおよび評価するには、LaTeX マークアップとページ上の結果コンテンツの場所との間のマッピングが必要です。
答え1
私は大学で授業を受けています。目標は、本からテキストを抽出することです。また、ヘッダーや段落などのページ構造も抽出する必要があります。LaTeX でデータセットを生成し、境界ボックスを記録します。
\newcommand{\recordcurpos}[2]{
\pdfsavepos\write\@auxout{
\gdef\string\Ax{\the\pdflastxpos}
\gdef\string\Ay{\the\pdflastypos}
}
\typeout{
{
"class":"#1",
"type":"#2",
"x":"\the\dimexpr \Ax sp -\parindent\relax",
"y":"\the\dimexpr \Ay sp -\parindent\relax",
"pagenum":"\thepage"
},
}
}
可能であれば、結果を共有していただければ幸いです。ありがとうございます!