
Ich möchte Dokumente erstellen, in denen jeder Absatz, jede Gleichung und jeder andere optisch unterscheidbare Teil des Dokuments mit einer eigenen Hintergrundfarbe hervorgehoben wird (z. B. werden Gleichungen blau hervorgehoben, Tabellen rot, Überschriften grün usw.).
Um die Herausforderung zu vergrößern, möchte ich diese Technik auf Tausende bereits vorhandener Latex-Dokumente anwenden. Lösungen, die komplexe Änderungen an vorhandenem Latex erfordern, sind möglicherweise nicht praktikabel.
Ich habe diese Frage als Frage zur Absatzfärbung gestellt, weil ich vermute, dass dies eine einfache Möglichkeit sein könnte, das zu erreichen, was ich möchte. Aber jede Methode zum Wiederherstellen der Begrenzungsrahmen, die jedem Befehl zugeordnet sind, der Seiteninhalte erzeugt, würde funktionieren. Beispielsweise könnte es eine Möglichkeit geben, die Seitenpositionen von Inhalten, die von Latex-Befehlen generiert wurden, aus den DVI-Dateien oder dem Latex-Protokoll wiederherzustellen.
Mein ultimatives Ziel ist die Erstellung eines Datensatzes zur Unterstützung der Forschung im Bereich der automatisierten Dokumentenverarbeitung: Ich möchte Algorithmen erstellen, die ein Bild einer Seite in seine Strukturkomponenten zerlegen können, ohne dass die ursprüngliche Auszeichnung erforderlich ist. Ich benötige eine Zuordnung zwischen der Latex-Auszeichnung und den Positionen des resultierenden Inhalts auf der Seite, um Algorithmen zu trainieren und auszuwerten.
Antwort1
Ich mache eine Studienarbeit an der Universität. Ziel ist es, Text aus einem Buch zu extrahieren. Ich muss auch die Seitenstruktur extrahieren: Überschriften, Absätze usw. Ich erstelle einen Datensatz in Latex und logge Begrenzungsrahmen ein:
\newcommand{\recordcurpos}[2]{
\pdfsavepos\write\@auxout{
\gdef\string\Ax{\the\pdflastxpos}
\gdef\string\Ay{\the\pdflastypos}
}
\typeout{
{
"class":"#1",
"type":"#2",
"x":"\the\dimexpr \Ax sp -\parindent\relax",
"y":"\the\dimexpr \Ay sp -\parindent\relax",
"pagenum":"\thepage"
},
}
}
Ich möchte, dass Sie Ihre Ergebnisse, wenn möglich, mit uns teilen. Vielen Dank!