경계 상자 위치 강조 표시 또는 찾기

경계 상자 위치 강조 표시 또는 찾기

문서의 모든 단락, 방정식 및 기타 시각적으로 구별되는 부분이 고유한 배경색으로 강조표시되는 문서를 생성하고 싶습니다(예: 방정식은 파란색으로, 표는 빨간색으로, 머리글은 녹색으로 강조표시 등).

과제에 추가로, 저는 이 기술을 기존 수천 개의 라텍스 문서에 적용하고 싶습니다. 기존 라텍스에 복잡한 변경이 필요한 솔루션은 실용적이지 않을 수 있습니다.

나는 이 질문을 단락 색칠 질문으로 제기했습니다. 왜냐하면 이것이 내가 원하는 것을 수행하는 쉬운 방법일 수 있다고 생각하기 때문입니다. 그러나 페이지 콘텐츠를 생성하는 각 명령과 관련된 경계 상자를 복구하는 방법은 모두 작동합니다. 예를 들어 DVI 파일이나 Latex 로그의 Latex 명령으로 생성된 콘텐츠의 페이지 위치를 복구하는 방법이 있을 수 있습니다.

나의 궁극적인 목표는 자동화된 문서 처리에 대한 연구를 지원하기 위한 데이터 세트를 만드는 것입니다. 원래 마크업 없이도 페이지 이미지를 구조적 구성 요소로 구문 분석할 수 있는 알고리즘을 만들고 싶습니다. 알고리즘을 훈련하고 평가하려면 라텍스 마크업과 페이지의 결과 콘텐츠 위치 간의 매핑이 필요합니다.

답변1

나는 대학에서 수업을 듣고 있어요. 목표는 책에서 텍스트를 추출하는 것입니다. 또한 페이지 구조(헤더, 단락 등)를 추출해야 합니다. 라텍스 및 로그 경계 상자에 데이터세트를 생성합니다.

\newcommand{\recordcurpos}[2]{
\pdfsavepos\write\@auxout{
    \gdef\string\Ax{\the\pdflastxpos}
    \gdef\string\Ay{\the\pdflastypos}
}
\typeout{
    {
       "class":"#1",
       "type":"#2",
       "x":"\the\dimexpr \Ax sp -\parindent\relax",
       "y":"\the\dimexpr \Ay sp -\parindent\relax",
       "pagenum":"\thepage"
    },
}
}

가능하다면 결과를 공유해 주시길 바랍니다. 감사해요!

관련 정보