¿Cómo puedo convertir código LaTeX en HTML mínimo?

Question

Honestamente, no creo que lo que quieres lograr sea demasiado útil. Las etiquetas y atributos HTML adicionales contienen información semántica útil que luego puede usarse para estilos CSS, etc.

Por ejemplo este código:

<h3 class='sectionHead'><span class='titlemark'>1.1   </span> <a id='x2-20001.1'></a>Nam amet</h3>
<!-- l. 12 --><p class='noindent'>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum amet.
</p>

<h3 class='sectionHead'>significa que este título fue generado por el \sectioncomando, se puede usar para un formato especial del número de sección. <a id='x2-20001.1'></a>es un destino para enlaces de \refcomandos que apuntan a esta sección, y también desde TOC. Si elimina esta etiqueta, las referencias cruzadas dejarán de funcionar. es el número de línea del archivo TeX original, esto puede ser útil para depurar, pero estoy de acuerdo en que no es tan útil como las otras etiquetas. significa que este párrafo no estaba previsto en el documento original. Como los archivos HTML están destinados al consumo de máquinas, a las que no les importa la información adicional, no se gana nada eliminando las etiquetas, pero se pierde bastante.

Dicho esto, si realmente deseas eliminar toda esta información, puedes hacerlo. Hay dos formas posibles. Una es usar el archivo de configuración TeX4th para cambiar las etiquetas generadas, la otra es usar filtros DOM LuaXML para eliminar etiquetas mediante programación. También puedes combinar estos enfoques, para usar el archivo de configuración para las cosas más fáciles y el archivo de compilación para eliminar los elementos restantes que son difíciles de eliminar del lado de TeX.

Su ejemplo particular se puede resolver usando solo el archivo de configuración. Guarde el siguiente código como mycfg.cfg:

\Preamble{xhtml}
\def\blocktag#1{\ifvmode\IgnorePar\fi\EndP\HCode{#1}}
\Configure{chapter}{}{}{\blocktag{<h2>}\chaptername\ \TitleMark\HCode{<br />\Hnewline}}{\blocktag{</h2>}}
\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\Configure{subsection}{}{}{\blocktag{<h4>}\TitleMark}{\blocktag{</h4>}}
\Configure{subsubsection}{}{}{\blocktag{<h5>}\TitleMark}{\blocktag{</h5>}}
\ConfigureMark{chapter}{\thechapter}
\ConfigureMark{section}{\thesection\ }
\ConfigureMark{subsection}{\thesubsection\ }
% subsubsection doesn't need mark configuration, as it doesn't produce a number
% handle paragraphs
\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}
\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}
\Configure{textit}{\HCode{<i>}\NoFonts}{\EndNoFonts\HCode{</i>}}
\Configure{emph}{\HCode{<em>}\NoFonts}{\EndNoFonts\HCode{</em>}}
% handle the <a> tag inside sections

\catcode`\:=11

\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
% uncomment the following lines to get correct cross-references
%\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
%\def\Title:Link{\SectionLink}
%\def\EndTitle:Link#1{\EndSectionLink}
\catcode`\:=12


\begin{document}
\EndPreamble

Para manejar los títulos de las secciones, debemos proporcionar dos comandos de configuración para cada tipo de sección:

 \Configure{sectionname}{at start of section}{at end of section}{section title}{end section title}
 \ConfigureMark{sectionname}{code that prints section number}

Entonces, para configurar la sección, necesitamos usar:

\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\ConfigureMark{section}{\thesection\ }

Esto elimina todo el formato innecesario producido por TeX4ht.

Entonces podemos arreglar párrafos:

\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}

Esto elimina el comentario con números de línea e información sobre sangría. El \EndPcomando inserta la etiqueta de cierre del párrafo anterior.

También proporcioné un formato más agradable \textbfy comandos similares usando:

\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}

El \NoFontscomando evitará la inserción de etc. Estas etiquetas se insertan cada vez que utiliza una fuente no predeterminada. \NoFontsimpedirá eso. Debes usar \EndNoFontspara encenderlo nuevamente. Si no desea utilizar información de fuente en absoluto, puede desactivarla agregando NoFontsuna opción al \Preamblecomando, como:

 \Preamble{xhtml,NoFonts}

La última parte es la más controvertida. El <a>elemento en los títulos de las secciones se inserta usando el \Title:Linkcomando. Puede redefinirlo para descartar el enlace. Debido a que usa el :en su nombre, también es necesario cambiar \catcodeeste carácter:

\catcode`\:=11
\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
\catcode`\:=12

Con esta configuración, obtendrá el siguiente resultado con

tex4ebook -c mycfg.cfg sample.tex

 <h2>Chapter 1<br /> 
Lorem ipsum</h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3>1.1 Nam amet</h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3>1.2 Lorem gravida</h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

Si desea que las referencias cruzadas y el TOC funcionen correctamente, le sugeriría utilizar la siguiente configuración para `\Title:Link:

\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
\def\Title:Link{\SectionLink}
\def\EndTitle:Link#1{\EndSectionLink}

El \LinkCommanddefine un nuevo comando que utiliza el mecanismo de referencia cruzada TeX4ht para producir enlaces. En lugar del <a>elemento, esta versión produce , \noexpand\:gobbleelimina el posible enlace de salida y idmantiene el destino de los enlaces que apuntan a la sección.

Con este cambio obtendrás el siguiente resultado:

  <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

Tenga en cuenta que la sección ahora se ve así:

  <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>

Fue Nam ametagregado por la configuración modificada y id='nam-amet'fue agregado por tex4ebook, para proporcionar un destino de enlace estable basado en el título de la sección, en lugar de la posición de la sección, que es más probable que cambie.

También hay algunos espacios en blanco adicionales en los párrafos, que se generan a partir de los espacios en blanco del archivo DVI. Para deshacerme de esto, usaría los filtros DOM.

El filtro DOM simple para esta tarea podría verse así:

local domfilter = require "make4ht-domfilter"

local function remove_space(node, regex)
  -- remove whitespace only from the text nodes
  if node and node:is_text() then
    node._text = node._text:gsub(regex, "")
  end
end

local filter = domfilter {
  function(dom)
    -- loop over <p> elements
    for _, p in ipairs(dom:query_selector("p")) do
      -- remove <p> elements without text
      local children = p:get_children()
      if #children < 2 and p:get_text():match("^%s*$") then
        p:remove_node()
      else
        local first = children[1]
        local last  = children[#children]
        remove_space(first, "^%s+") -- remove whitespace at the beginning
        remove_space(last, "%s+$") -- remove whitespace at the end of paragraph
      end
    end
    return dom
  end
}

Make:match("html$", filter)

Puedes solicitarlo usando la -eopción:

$ tex4ebook -c mycfg.cfg -e build.lua sample.tex

Este es el resultado:

   <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.</p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.</p><p>Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.</p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.</p><p>A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.</p><p>Eu felis Curabitur quis nibh tellus.</p>

Answer 1

Honestamente, no creo que lo que quieres lograr sea demasiado útil. Las etiquetas y atributos HTML adicionales contienen información semántica útil que luego puede usarse para estilos CSS, etc.

Por ejemplo este código:

<h3 class='sectionHead'><span class='titlemark'>1.1   </span> <a id='x2-20001.1'></a>Nam amet</h3>
<!-- l. 12 --><p class='noindent'>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum amet.
</p>

<h3 class='sectionHead'>significa que este título fue generado por el \sectioncomando, se puede usar para un formato especial del número de sección. <a id='x2-20001.1'></a>es un destino para enlaces de \refcomandos que apuntan a esta sección, y también desde TOC. Si elimina esta etiqueta, las referencias cruzadas dejarán de funcionar. es el número de línea del archivo TeX original, esto puede ser útil para depurar, pero estoy de acuerdo en que no es tan útil como las otras etiquetas. significa que este párrafo no estaba previsto en el documento original. Como los archivos HTML están destinados al consumo de máquinas, a las que no les importa la información adicional, no se gana nada eliminando las etiquetas, pero se pierde bastante.

Dicho esto, si realmente deseas eliminar toda esta información, puedes hacerlo. Hay dos formas posibles. Una es usar el archivo de configuración TeX4th para cambiar las etiquetas generadas, la otra es usar filtros DOM LuaXML para eliminar etiquetas mediante programación. También puedes combinar estos enfoques, para usar el archivo de configuración para las cosas más fáciles y el archivo de compilación para eliminar los elementos restantes que son difíciles de eliminar del lado de TeX.

Su ejemplo particular se puede resolver usando solo el archivo de configuración. Guarde el siguiente código como mycfg.cfg:

\Preamble{xhtml}
\def\blocktag#1{\ifvmode\IgnorePar\fi\EndP\HCode{#1}}
\Configure{chapter}{}{}{\blocktag{<h2>}\chaptername\ \TitleMark\HCode{<br />\Hnewline}}{\blocktag{</h2>}}
\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\Configure{subsection}{}{}{\blocktag{<h4>}\TitleMark}{\blocktag{</h4>}}
\Configure{subsubsection}{}{}{\blocktag{<h5>}\TitleMark}{\blocktag{</h5>}}
\ConfigureMark{chapter}{\thechapter}
\ConfigureMark{section}{\thesection\ }
\ConfigureMark{subsection}{\thesubsection\ }
% subsubsection doesn't need mark configuration, as it doesn't produce a number
% handle paragraphs
\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}
\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}
\Configure{textit}{\HCode{<i>}\NoFonts}{\EndNoFonts\HCode{</i>}}
\Configure{emph}{\HCode{<em>}\NoFonts}{\EndNoFonts\HCode{</em>}}
% handle the <a> tag inside sections

\catcode`\:=11

\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
% uncomment the following lines to get correct cross-references
%\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
%\def\Title:Link{\SectionLink}
%\def\EndTitle:Link#1{\EndSectionLink}
\catcode`\:=12


\begin{document}
\EndPreamble

Para manejar los títulos de las secciones, debemos proporcionar dos comandos de configuración para cada tipo de sección:

 \Configure{sectionname}{at start of section}{at end of section}{section title}{end section title}
 \ConfigureMark{sectionname}{code that prints section number}

Entonces, para configurar la sección, necesitamos usar:

\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\ConfigureMark{section}{\thesection\ }

Esto elimina todo el formato innecesario producido por TeX4ht.

Entonces podemos arreglar párrafos:

\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}

Esto elimina el comentario con números de línea e información sobre sangría. El \EndPcomando inserta la etiqueta de cierre del párrafo anterior.

También proporcioné un formato más agradable \textbfy comandos similares usando:

\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}

El \NoFontscomando evitará la inserción de etc. Estas etiquetas se insertan cada vez que utiliza una fuente no predeterminada. \NoFontsimpedirá eso. Debes usar \EndNoFontspara encenderlo nuevamente. Si no desea utilizar información de fuente en absoluto, puede desactivarla agregando NoFontsuna opción al \Preamblecomando, como:

 \Preamble{xhtml,NoFonts}

La última parte es la más controvertida. El <a>elemento en los títulos de las secciones se inserta usando el \Title:Linkcomando. Puede redefinirlo para descartar el enlace. Debido a que usa el :en su nombre, también es necesario cambiar \catcodeeste carácter:

\catcode`\:=11
\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
\catcode`\:=12

Con esta configuración, obtendrá el siguiente resultado con

tex4ebook -c mycfg.cfg sample.tex

 <h2>Chapter 1<br /> 
Lorem ipsum</h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3>1.1 Nam amet</h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3>1.2 Lorem gravida</h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

Si desea que las referencias cruzadas y el TOC funcionen correctamente, le sugeriría utilizar la siguiente configuración para `\Title:Link:

\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
\def\Title:Link{\SectionLink}
\def\EndTitle:Link#1{\EndSectionLink}

El \LinkCommanddefine un nuevo comando que utiliza el mecanismo de referencia cruzada TeX4ht para producir enlaces. En lugar del <a>elemento, esta versión produce , \noexpand\:gobbleelimina el posible enlace de salida y idmantiene el destino de los enlaces que apuntan a la sección.

Con este cambio obtendrás el siguiente resultado:

  <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

Tenga en cuenta que la sección ahora se ve así:

  <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>

Fue Nam ametagregado por la configuración modificada y id='nam-amet'fue agregado por tex4ebook, para proporcionar un destino de enlace estable basado en el título de la sección, en lugar de la posición de la sección, que es más probable que cambie.

También hay algunos espacios en blanco adicionales en los párrafos, que se generan a partir de los espacios en blanco del archivo DVI. Para deshacerme de esto, usaría los filtros DOM.

El filtro DOM simple para esta tarea podría verse así:

local domfilter = require "make4ht-domfilter"

local function remove_space(node, regex)
  -- remove whitespace only from the text nodes
  if node and node:is_text() then
    node._text = node._text:gsub(regex, "")
  end
end

local filter = domfilter {
  function(dom)
    -- loop over <p> elements
    for _, p in ipairs(dom:query_selector("p")) do
      -- remove <p> elements without text
      local children = p:get_children()
      if #children < 2 and p:get_text():match("^%s*$") then
        p:remove_node()
      else
        local first = children[1]
        local last  = children[#children]
        remove_space(first, "^%s+") -- remove whitespace at the beginning
        remove_space(last, "%s+$") -- remove whitespace at the end of paragraph
      end
    end
    return dom
  end
}

Make:match("html$", filter)

Puedes solicitarlo usando la -eopción:

$ tex4ebook -c mycfg.cfg -e build.lua sample.tex

Este es el resultado:

   <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.</p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.</p><p>Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.</p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.</p><p>A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.</p><p>Eu felis Curabitur quis nibh tellus.</p>

¿Cómo puedo convertir código LaTeX en HTML mínimo?

Respuesta1

información relacionada