Wie kann ich LaTeX-Code in minimales HTML umwandeln?

Question

Ehrlich gesagt glaube ich nicht, dass das, was Sie erreichen möchten, besonders nützlich ist. Die zusätzlichen HTML-Tags und -Attribute enthalten nützliche semantische Informationen, die dann für CSS-Styling usw. verwendet werden können.

Zum Beispiel dieser Code:

<h3 class='sectionHead'><span class='titlemark'>1.1   </span> <a id='x2-20001.1'></a>Nam amet</h3>
<!-- l. 12 --><p class='noindent'>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum amet.
</p>

<h3 class='sectionHead'>\sectionbedeutet, dass dieser Titel durch den Befehl erzeugt wurde , kann für die spezielle Formatierung der Abschnittsnummer verwendet werden. <a id='x2-20001.1'></a>ist ein Ziel für Links von \refBefehlen, die auf diesen Abschnitt verweisen, und auch vom Inhaltsverzeichnis. Wenn Sie dieses Tag entfernen, funktionieren Querverweise nicht mehr. ist die Zeilennummer der ursprünglichen TeX-Datei, dies kann beim Debuggen nützlich sein, aber ich stimme zu, dass es nicht so nützlich ist wie die anderen Tags. bedeutet, dass dieser Absatz im Originaldokument nicht vorgesehen war. Da HTML-Dateien für die Verarbeitung durch Maschinen gedacht sind, denen zusätzliche Informationen nichts ausmachen, gewinnen Sie durch das Entfernen der Tags nichts, verlieren aber ziemlich viel.

Wenn Sie diese Informationen wirklich entfernen möchten, können Sie das tun. Es gibt zwei Möglichkeiten. Eine besteht darin, die TeX4th-Konfigurationsdatei zu verwenden, um generierte Tags zu ändern, die andere darin, LuaXML-DOM-Filter zu verwenden, um Tags programmgesteuert zu entfernen. Sie können diese Ansätze auch mischen, um die Konfigurationsdatei für die einfacheren Dinge zu verwenden und die Build-Datei, um verbleibende Elemente zu entfernen, die von der TeX-Seite aus schwer zu entfernen sind.

Ihr spezielles Beispiel kann nur mit der Konfigurationsdatei gelöst werden. Speichern Sie den folgenden Code als mycfg.cfg:

\Preamble{xhtml}
\def\blocktag#1{\ifvmode\IgnorePar\fi\EndP\HCode{#1}}
\Configure{chapter}{}{}{\blocktag{<h2>}\chaptername\ \TitleMark\HCode{<br />\Hnewline}}{\blocktag{</h2>}}
\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\Configure{subsection}{}{}{\blocktag{<h4>}\TitleMark}{\blocktag{</h4>}}
\Configure{subsubsection}{}{}{\blocktag{<h5>}\TitleMark}{\blocktag{</h5>}}
\ConfigureMark{chapter}{\thechapter}
\ConfigureMark{section}{\thesection\ }
\ConfigureMark{subsection}{\thesubsection\ }
% subsubsection doesn't need mark configuration, as it doesn't produce a number
% handle paragraphs
\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}
\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}
\Configure{textit}{\HCode{<i>}\NoFonts}{\EndNoFonts\HCode{</i>}}
\Configure{emph}{\HCode{<em>}\NoFonts}{\EndNoFonts\HCode{</em>}}
% handle the <a> tag inside sections

\catcode`\:=11

\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
% uncomment the following lines to get correct cross-references
%\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
%\def\Title:Link{\SectionLink}
%\def\EndTitle:Link#1{\EndSectionLink}
\catcode`\:=12


\begin{document}
\EndPreamble

Um Abschnittstitel zu verwalten, müssen wir für jeden Abschnittstyp zwei Konfigurationsbefehle bereitstellen:

 \Configure{sectionname}{at start of section}{at end of section}{section title}{end section title}
 \ConfigureMark{sectionname}{code that prints section number}

Um den Abschnitt zu konfigurieren, müssen wir also Folgendes verwenden:

\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\ConfigureMark{section}{\thesection\ }

Dadurch werden alle unnötigen Formatierungen entfernt, die von TeX4ht erzeugt werden.

Dann können wir Absätze korrigieren:

\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}

Dadurch wird der Kommentar mit Zeilennummern und Angaben zur Einrückung entfernt. Der \EndPBefehl fügt das schließende Tag für den vorherigen Absatz ein.

Ich habe auch eine schönere Formatierung für \textbfund ähnliche Befehle bereitgestellt, indem ich Folgendes verwendet habe:

\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}

Der \NoFontsBefehl verhindert das Einfügen von usw. Diese Tags werden jedes Mal eingefügt, wenn Sie eine nicht standardmäßige Schriftart verwenden. \NoFontsverhindert das. Sie müssen verwenden, um es wieder einzuschalten. Wenn Sie überhaupt keine Schriftartinformationen verwenden möchten, können Sie es deaktivieren, indem Sie dem Befehl eine Option \EndNoFontshinzufügen , wie:NoFonts\Preamble

 \Preamble{xhtml,NoFonts}

Der letzte Teil ist der umstrittenste. Das <a>Element in Abschnittstiteln wird mit dem \Title:LinkBefehl eingefügt. Sie können es neu definieren, um den Link zu verwerfen. Da es :in seinem Namen das verwendet, ist es auch notwendig, \catcodedieses Zeichen zu ändern:

\catcode`\:=11
\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
\catcode`\:=12

Mit dieser Konfiguration erhalten Sie das folgende Ergebnis mit

tex4ebook -c mycfg.cfg sample.tex

 <h2>Chapter 1<br /> 
Lorem ipsum</h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3>1.1 Nam amet</h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3>1.2 Lorem gravida</h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

Wenn Querverweise und Inhaltsverzeichnis richtig funktionieren sollen, empfehle ich die Verwendung der folgenden Konfiguration für `\Title:Link:

\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
\def\Title:Link{\SectionLink}
\def\EndTitle:Link#1{\EndSectionLink}

Der \LinkCommandneue Befehl definiert den Querverweismechanismus von TeX4ht, um Links zu erstellen. Anstelle des <a>Elements erstellt diese Version , \noexpand\:gobbleentfernt den möglichen ausgehenden Link und idspeichert das Ziel für Links, die auf den Abschnitt verweisen.

Mit dieser Änderung erhalten Sie folgendes Ergebnis:

  <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

Beachten Sie, dass der Abschnitt jetzt folgendermaßen aussieht:

  <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>

Das Nam ametwurde durch die geänderte Konfiguration hinzugefügt und id='nam-amet'wurde von hinzugefügt tex4ebook, um ein stabiles Linkziel basierend auf dem Abschnittstitel anstelle der Abschnittsposition bereitzustellen, die sich eher ändert.

Es gibt auch einige zusätzliche Leerzeichen in Absätzen, die aus den Leerzeichen in der DVI-Datei generiert werden. Um diese zu entfernen, würde ich die DOM-Filter verwenden.

Ein einfacher DOM-Filter für diese Aufgabe könnte so aussehen:

local domfilter = require "make4ht-domfilter"

local function remove_space(node, regex)
  -- remove whitespace only from the text nodes
  if node and node:is_text() then
    node._text = node._text:gsub(regex, "")
  end
end

local filter = domfilter {
  function(dom)
    -- loop over <p> elements
    for _, p in ipairs(dom:query_selector("p")) do
      -- remove <p> elements without text
      local children = p:get_children()
      if #children < 2 and p:get_text():match("^%s*$") then
        p:remove_node()
      else
        local first = children[1]
        local last  = children[#children]
        remove_space(first, "^%s+") -- remove whitespace at the beginning
        remove_space(last, "%s+$") -- remove whitespace at the end of paragraph
      end
    end
    return dom
  end
}

Make:match("html$", filter)

Sie können dies mit der folgenden Option anfordern -e:

$ tex4ebook -c mycfg.cfg -e build.lua sample.tex

Dies ist das Ergebnis:

   <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.</p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.</p><p>Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.</p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.</p><p>A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.</p><p>Eu felis Curabitur quis nibh tellus.</p>

Answer 1

Ehrlich gesagt glaube ich nicht, dass das, was Sie erreichen möchten, besonders nützlich ist. Die zusätzlichen HTML-Tags und -Attribute enthalten nützliche semantische Informationen, die dann für CSS-Styling usw. verwendet werden können.

Zum Beispiel dieser Code:

<h3 class='sectionHead'><span class='titlemark'>1.1   </span> <a id='x2-20001.1'></a>Nam amet</h3>
<!-- l. 12 --><p class='noindent'>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum amet.
</p>

<h3 class='sectionHead'>\sectionbedeutet, dass dieser Titel durch den Befehl erzeugt wurde , kann für die spezielle Formatierung der Abschnittsnummer verwendet werden. <a id='x2-20001.1'></a>ist ein Ziel für Links von \refBefehlen, die auf diesen Abschnitt verweisen, und auch vom Inhaltsverzeichnis. Wenn Sie dieses Tag entfernen, funktionieren Querverweise nicht mehr. ist die Zeilennummer der ursprünglichen TeX-Datei, dies kann beim Debuggen nützlich sein, aber ich stimme zu, dass es nicht so nützlich ist wie die anderen Tags. bedeutet, dass dieser Absatz im Originaldokument nicht vorgesehen war. Da HTML-Dateien für die Verarbeitung durch Maschinen gedacht sind, denen zusätzliche Informationen nichts ausmachen, gewinnen Sie durch das Entfernen der Tags nichts, verlieren aber ziemlich viel.

Wenn Sie diese Informationen wirklich entfernen möchten, können Sie das tun. Es gibt zwei Möglichkeiten. Eine besteht darin, die TeX4th-Konfigurationsdatei zu verwenden, um generierte Tags zu ändern, die andere darin, LuaXML-DOM-Filter zu verwenden, um Tags programmgesteuert zu entfernen. Sie können diese Ansätze auch mischen, um die Konfigurationsdatei für die einfacheren Dinge zu verwenden und die Build-Datei, um verbleibende Elemente zu entfernen, die von der TeX-Seite aus schwer zu entfernen sind.

Ihr spezielles Beispiel kann nur mit der Konfigurationsdatei gelöst werden. Speichern Sie den folgenden Code als mycfg.cfg:

\Preamble{xhtml}
\def\blocktag#1{\ifvmode\IgnorePar\fi\EndP\HCode{#1}}
\Configure{chapter}{}{}{\blocktag{<h2>}\chaptername\ \TitleMark\HCode{<br />\Hnewline}}{\blocktag{</h2>}}
\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\Configure{subsection}{}{}{\blocktag{<h4>}\TitleMark}{\blocktag{</h4>}}
\Configure{subsubsection}{}{}{\blocktag{<h5>}\TitleMark}{\blocktag{</h5>}}
\ConfigureMark{chapter}{\thechapter}
\ConfigureMark{section}{\thesection\ }
\ConfigureMark{subsection}{\thesubsection\ }
% subsubsection doesn't need mark configuration, as it doesn't produce a number
% handle paragraphs
\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}
\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}
\Configure{textit}{\HCode{<i>}\NoFonts}{\EndNoFonts\HCode{</i>}}
\Configure{emph}{\HCode{<em>}\NoFonts}{\EndNoFonts\HCode{</em>}}
% handle the <a> tag inside sections

\catcode`\:=11

\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
% uncomment the following lines to get correct cross-references
%\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
%\def\Title:Link{\SectionLink}
%\def\EndTitle:Link#1{\EndSectionLink}
\catcode`\:=12


\begin{document}
\EndPreamble

Um Abschnittstitel zu verwalten, müssen wir für jeden Abschnittstyp zwei Konfigurationsbefehle bereitstellen:

 \Configure{sectionname}{at start of section}{at end of section}{section title}{end section title}
 \ConfigureMark{sectionname}{code that prints section number}

Um den Abschnitt zu konfigurieren, müssen wir also Folgendes verwenden:

\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\ConfigureMark{section}{\thesection\ }

Dadurch werden alle unnötigen Formatierungen entfernt, die von TeX4ht erzeugt werden.

Dann können wir Absätze korrigieren:

\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}

Dadurch wird der Kommentar mit Zeilennummern und Angaben zur Einrückung entfernt. Der \EndPBefehl fügt das schließende Tag für den vorherigen Absatz ein.

Ich habe auch eine schönere Formatierung für \textbfund ähnliche Befehle bereitgestellt, indem ich Folgendes verwendet habe:

\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}

Der \NoFontsBefehl verhindert das Einfügen von usw. Diese Tags werden jedes Mal eingefügt, wenn Sie eine nicht standardmäßige Schriftart verwenden. \NoFontsverhindert das. Sie müssen verwenden, um es wieder einzuschalten. Wenn Sie überhaupt keine Schriftartinformationen verwenden möchten, können Sie es deaktivieren, indem Sie dem Befehl eine Option \EndNoFontshinzufügen , wie:NoFonts\Preamble

 \Preamble{xhtml,NoFonts}

Der letzte Teil ist der umstrittenste. Das <a>Element in Abschnittstiteln wird mit dem \Title:LinkBefehl eingefügt. Sie können es neu definieren, um den Link zu verwerfen. Da es :in seinem Namen das verwendet, ist es auch notwendig, \catcodedieses Zeichen zu ändern:

\catcode`\:=11
\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
\catcode`\:=12

Mit dieser Konfiguration erhalten Sie das folgende Ergebnis mit

tex4ebook -c mycfg.cfg sample.tex

 <h2>Chapter 1<br /> 
Lorem ipsum</h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3>1.1 Nam amet</h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3>1.2 Lorem gravida</h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

Wenn Querverweise und Inhaltsverzeichnis richtig funktionieren sollen, empfehle ich die Verwendung der folgenden Konfiguration für `\Title:Link:

\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
\def\Title:Link{\SectionLink}
\def\EndTitle:Link#1{\EndSectionLink}

Der \LinkCommandneue Befehl definiert den Querverweismechanismus von TeX4ht, um Links zu erstellen. Anstelle des <a>Elements erstellt diese Version , \noexpand\:gobbleentfernt den möglichen ausgehenden Link und idspeichert das Ziel für Links, die auf den Abschnitt verweisen.

Mit dieser Änderung erhalten Sie folgendes Ergebnis:

  <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

Beachten Sie, dass der Abschnitt jetzt folgendermaßen aussieht:

  <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>

Das Nam ametwurde durch die geänderte Konfiguration hinzugefügt und id='nam-amet'wurde von hinzugefügt tex4ebook, um ein stabiles Linkziel basierend auf dem Abschnittstitel anstelle der Abschnittsposition bereitzustellen, die sich eher ändert.

Es gibt auch einige zusätzliche Leerzeichen in Absätzen, die aus den Leerzeichen in der DVI-Datei generiert werden. Um diese zu entfernen, würde ich die DOM-Filter verwenden.

Ein einfacher DOM-Filter für diese Aufgabe könnte so aussehen:

local domfilter = require "make4ht-domfilter"

local function remove_space(node, regex)
  -- remove whitespace only from the text nodes
  if node and node:is_text() then
    node._text = node._text:gsub(regex, "")
  end
end

local filter = domfilter {
  function(dom)
    -- loop over <p> elements
    for _, p in ipairs(dom:query_selector("p")) do
      -- remove <p> elements without text
      local children = p:get_children()
      if #children < 2 and p:get_text():match("^%s*$") then
        p:remove_node()
      else
        local first = children[1]
        local last  = children[#children]
        remove_space(first, "^%s+") -- remove whitespace at the beginning
        remove_space(last, "%s+$") -- remove whitespace at the end of paragraph
      end
    end
    return dom
  end
}

Make:match("html$", filter)

Sie können dies mit der folgenden Option anfordern -e:

$ tex4ebook -c mycfg.cfg -e build.lua sample.tex

Dies ist das Ergebnis:

   <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.</p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.</p><p>Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.</p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.</p><p>A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.</p><p>Eu felis Curabitur quis nibh tellus.</p>

Wie kann ich LaTeX-Code in minimales HTML umwandeln?

Antwort1

verwandte Informationen