如何將 LaTeX 程式碼轉換為最小的 HTML？

Question

老實說，我認為你想要實現的目標並沒有太大用處。額外的 HTML 標籤和屬性攜帶有用的語義訊息，可用於 CSS 樣式等。

例如這段程式碼：

<h3 class='sectionHead'><span class='titlemark'>1.1   </span> <a id='x2-20001.1'></a>Nam amet</h3>
<!-- l. 12 --><p class='noindent'>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum amet.
</p>

<h3 class='sectionHead'>表示該標題是由\section指令產生的，可用於節號的特殊格式。是指向此部分的命令以及目錄中<a id='x2-20001.1'></a>的連結的目標。\ref如果刪除此標籤，交叉引用將停止運作。是原始 TeX 檔案的行號，這對於調試很有用，但我同意它不如其他標籤有用。意味著原始文件中沒有本段內容。由於 HTML 文件是供機器使用的，機器不介意額外的信息，因此刪除標籤不會獲得任何好處，反而會損失很多。

話雖如此，如果您確實想刪除所有這些信息，也可以。有兩種可能的方法。一種是使用 TeX4th 設定檔來更改產生的標籤，另一種是使用 LuaXML DOM 過濾器以程式設計刪除標籤。您也可以混合使用這些方法，使用設定檔來完成更簡單的事情，並使用建置檔案來刪除難以從 TeX 端刪除的剩餘元素。

您的特定範例可以僅使用設定檔來解決。將以下程式碼另存為mycfg.cfg：

\Preamble{xhtml}
\def\blocktag#1{\ifvmode\IgnorePar\fi\EndP\HCode{#1}}
\Configure{chapter}{}{}{\blocktag{<h2>}\chaptername\ \TitleMark\HCode{<br />\Hnewline}}{\blocktag{</h2>}}
\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\Configure{subsection}{}{}{\blocktag{<h4>}\TitleMark}{\blocktag{</h4>}}
\Configure{subsubsection}{}{}{\blocktag{<h5>}\TitleMark}{\blocktag{</h5>}}
\ConfigureMark{chapter}{\thechapter}
\ConfigureMark{section}{\thesection\ }
\ConfigureMark{subsection}{\thesubsection\ }
% subsubsection doesn't need mark configuration, as it doesn't produce a number
% handle paragraphs
\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}
\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}
\Configure{textit}{\HCode{<i>}\NoFonts}{\EndNoFonts\HCode{</i>}}
\Configure{emph}{\HCode{<em>}\NoFonts}{\EndNoFonts\HCode{</em>}}
% handle the <a> tag inside sections

\catcode`\:=11

\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
% uncomment the following lines to get correct cross-references
%\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
%\def\Title:Link{\SectionLink}
%\def\EndTitle:Link#1{\EndSectionLink}
\catcode`\:=12


\begin{document}
\EndPreamble

為了處理節標題，我們需要為每種節類型提供兩個設定指令：

 \Configure{sectionname}{at start of section}{at end of section}{section title}{end section title}
 \ConfigureMark{sectionname}{code that prints section number}

因此，要配置部分，我們需要使用：

\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\ConfigureMark{section}{\thesection\ }

這會刪除 TeX4ht 產生的所有不必要的格式。

然後我們可以修復段落：

\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}

這將刪除帶有行號和縮排資訊的註釋。該\EndP指令插入前一段的結束標記。

我還使用以下命令提供了一些更好的格式\textbf和類似命令：

\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}

該\NoFonts命令將阻止插入等。\NoFonts會阻止這種情況發生。您需要使用它\EndNoFonts才能再次打開它。如果您根本不想使用字體訊息，可以透過NoFonts向命令添加選項來停用它\Preamble，例如：

 \Preamble{xhtml,NoFonts}

最後一點是最有爭議的。<a>使用該指令插入節標題中的元素\Title:Link。您可以重新定義它以放棄該連結。因為它:在名稱中使用了，所以還需要更改\catcode此字元：

\catcode`\:=11
\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
\catcode`\:=12

透過此配置，您將得到以下結果

tex4ebook -c mycfg.cfg sample.tex

 <h2>Chapter 1<br /> 
Lorem ipsum</h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3>1.1 Nam amet</h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3>1.2 Lorem gravida</h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

如果您希望交叉引用和目錄正常工作，我建議對 `\Title:Link 使用以下配置：

\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
\def\Title:Link{\SectionLink}
\def\EndTitle:Link#1{\EndSectionLink}

定義\LinkCommand了使用 TeX4ht 交叉引用機制來產生連結的新指令。<a>此版本產生，而不是元素，\noexpand\:gobble刪除可能的 out 鏈接，並id保存指向該部分的鏈接的目標。

透過此更改，您將得到以下結果：

  <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

請注意，該部分現在如下所示：

  <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>

是Nam amet由更改後的配置添加的，id='nam-amet'是由添加的tex4ebook，以根據章節標題提供穩定的連結目的地，而不是更可能發生變化的章節位置。

還有一些額外的空白 i 段落，這是由 DVI 檔案中的空白產生的。為了擺脫這個問題，我將使用 DOM 過濾器。

此任務的簡單 DOM 過濾器可能如下所示：

local domfilter = require "make4ht-domfilter"

local function remove_space(node, regex)
  -- remove whitespace only from the text nodes
  if node and node:is_text() then
    node._text = node._text:gsub(regex, "")
  end
end

local filter = domfilter {
  function(dom)
    -- loop over <p> elements
    for _, p in ipairs(dom:query_selector("p")) do
      -- remove <p> elements without text
      local children = p:get_children()
      if #children < 2 and p:get_text():match("^%s*$") then
        p:remove_node()
      else
        local first = children[1]
        local last  = children[#children]
        remove_space(first, "^%s+") -- remove whitespace at the beginning
        remove_space(last, "%s+$") -- remove whitespace at the end of paragraph
      end
    end
    return dom
  end
}

Make:match("html$", filter)

您可以要求使用以下-e選項：

$ tex4ebook -c mycfg.cfg -e build.lua sample.tex

這是結果：

   <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.</p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.</p><p>Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.</p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.</p><p>A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.</p><p>Eu felis Curabitur quis nibh tellus.</p>

Answer 1