
Quiero producir documentos donde cada párrafo, ecuación y otra parte visualmente distinta del documento esté resaltado con su propio color de fondo (por ejemplo, las ecuaciones están resaltadas en azul, las tablas en rojo, los encabezados en verde, etc.)
Para aumentar el desafío, quiero aplicar esta técnica a miles de documentos de látex preexistentes; Las soluciones que requieren cambios complejos en el látex existente pueden no ser prácticas.
Planteé esta pregunta como una pregunta para colorear párrafos porque sospecho que podría ser una manera fácil de hacer lo que quiero. Pero cualquier método para recuperar los cuadros delimitadores asociados con cada comando que produce contenido de página funcionaría. Por ejemplo, puede haber una manera de recuperar las ubicaciones de las páginas del contenido generado a partir de comandos de látex de los archivos DVI o del registro de látex.
Mi objetivo final es crear un conjunto de datos para respaldar la investigación sobre el procesamiento automatizado de documentos: quiero crear algoritmos que puedan analizar una imagen de una página en sus componentes estructurales sin la necesidad del marcado original. Necesito un mapeo entre el marcado de látex y las ubicaciones del contenido resultante en la página para entrenar y evaluar algoritmos.
Respuesta1
Estoy haciendo un trabajo de curso en la universidad. El objetivo es extraer texto de un libro. También necesito extraer la estructura de la página: encabezados, párrafos, etc. Genero un conjunto de datos en látex y registro cuadros delimitadores:
\newcommand{\recordcurpos}[2]{
\pdfsavepos\write\@auxout{
\gdef\string\Ax{\the\pdflastxpos}
\gdef\string\Ay{\the\pdflastypos}
}
\typeout{
{
"class":"#1",
"type":"#2",
"x":"\the\dimexpr \Ax sp -\parindent\relax",
"y":"\the\dimexpr \Ay sp -\parindent\relax",
"pagenum":"\thepage"
},
}
}
Deseo que compartas tus resultados si puedes. ¡Gracias!