Destaque ou encontre locais de caixas delimitadoras

Destaque ou encontre locais de caixas delimitadoras

Quero produzir documentos onde cada parágrafo, equação e outra parte visualmente distinta do documento seja destacada com sua própria cor de fundo (por exemplo, equações são destacadas em azul, tabelas em vermelho, cabeçalhos em verde, etc.)

Para aumentar o desafio, quero aplicar esta técnica a milhares de documentos de látex pré-existentes; soluções que exigem alterações complexas no látex existente podem não ser práticas.

Coloquei essa questão como uma questão de colorir parágrafo porque suspeito que essa possa ser uma maneira fácil de fazer o que desejo. Mas qualquer método de recuperação das caixas delimitadoras associadas a cada comando que produz o conteúdo da página funcionaria. Por exemplo, pode haver uma maneira de recuperar os locais das páginas do conteúdo gerado a partir de comandos latex dos arquivos DVI ou do log latex.

Meu objetivo final é criar um conjunto de dados para apoiar a pesquisa em processamento automatizado de documentos: quero criar algoritmos que possam analisar a imagem de uma página em seus componentes estruturais sem a necessidade da marcação original. Preciso de um mapeamento entre a marcação de látex e as localizações do conteúdo resultante na página para treinar e avaliar algoritmos.

Responder1

Estou fazendo um curso na universidade. O objetivo é extrair texto de um livro. Também preciso extrair a estrutura da página: cabeçalhos, parágrafos, etc. Eu gero um conjunto de dados em látex e registro caixas delimitadoras:

\newcommand{\recordcurpos}[2]{
\pdfsavepos\write\@auxout{
    \gdef\string\Ax{\the\pdflastxpos}
    \gdef\string\Ay{\the\pdflastypos}
}
\typeout{
    {
       "class":"#1",
       "type":"#2",
       "x":"\the\dimexpr \Ax sp -\parindent\relax",
       "y":"\the\dimexpr \Ay sp -\parindent\relax",
       "pagenum":"\thepage"
    },
}
}

Desejo que você compartilhe seus resultados, se puder. Te agradece!

informação relacionada