反白或尋找邊界框的位置

反白或尋找邊界框的位置

我想要產生文檔,其中文檔的每個段落、方程式和其他視覺上不同的部分都用自己的背景顏色突出顯示(例如,方程式以藍色突出顯示,表格以紅色突出顯示,標題以綠色突出顯示等)

為了增加挑戰,我想將此技術應用於數千個預先存在的乳膠文件;需要對現有乳膠進行複雜更改的解決方案可能不切實際。

我將這個問題作為段落著色問題提出,因為我懷疑這可能是實現我想要的事情的簡單方法。但是任何恢復與生成頁面內容的每個命令關聯的邊界框的方法都可以。例如,可能有一種方法可以從 DVI 檔案或 Latex 日誌中還原由 Latex 命令產生的內容的頁面位置。

我的最終目標是創建一個資料集來支援自動文檔處理的研究:我想創建可以將頁面圖像解析為其結構組件的演算法,而無需原始標記。我需要乳膠標記與頁面上生成的內容的位置之間的映射來訓練和評估演算法。

答案1

我正在大學做課程。目標是從書中提取文字。我還需要提取頁面結構:標題、段落等。

\newcommand{\recordcurpos}[2]{
\pdfsavepos\write\@auxout{
    \gdef\string\Ax{\the\pdflastxpos}
    \gdef\string\Ay{\the\pdflastypos}
}
\typeout{
    {
       "class":"#1",
       "type":"#2",
       "x":"\the\dimexpr \Ax sp -\parindent\relax",
       "y":"\the\dimexpr \Ay sp -\parindent\relax",
       "pagenum":"\thepage"
    },
}
}

如果可以的話,我希望您分享您的結果。感謝您!

相關內容