Como posso converter código LaTeX em HTML mínimo?

Question

Honestamente, não acho que o que você deseja alcançar seja muito útil. As tags e atributos HTML extras carregam informações semânticas úteis que podem ser usadas para estilo CSS, etc.

Por exemplo este código:

<h3 class='sectionHead'><span class='titlemark'>1.1   </span> <a id='x2-20001.1'></a>Nam amet</h3>
<!-- l. 12 --><p class='noindent'>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum amet.
</p>

<h3 class='sectionHead'>significa que este título foi produzido pelo \sectioncomando, pode ser usado para formatação especial do número da seção. <a id='x2-20001.1'></a>é um destino para links de \refcomandos que apontam para esta seção e também do TOC. Se você remover esta tag, as referências cruzadas deixarão de funcionar. é o número da linha do arquivo TeX original, isso pode ser útil para depuração, mas concordo que não é tão útil quanto as outras tags. significa que este parágrafo não foi pretendido no documento original. Como os arquivos HTML são destinados ao consumo de máquinas, que não se importam com informações extras, você não ganha nada removendo as tags, mas perde bastante.

Dito isto, se você realmente deseja remover todas essas informações, você pode. Existem duas maneiras possíveis. Uma é usar o arquivo de configuração TeX4th para alterar as tags geradas, a outra é usar filtros DOM LuaXML para remover tags programaticamente. Você também pode misturar essas abordagens, para usar o arquivo de configuração para coisas mais fáceis e o arquivo de construção para remover elementos restantes que são difíceis de remover do lado do TeX.

Seu exemplo específico pode ser resolvido usando apenas o arquivo de configuração. Salve o seguinte código como mycfg.cfg:

\Preamble{xhtml}
\def\blocktag#1{\ifvmode\IgnorePar\fi\EndP\HCode{#1}}
\Configure{chapter}{}{}{\blocktag{<h2>}\chaptername\ \TitleMark\HCode{<br />\Hnewline}}{\blocktag{</h2>}}
\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\Configure{subsection}{}{}{\blocktag{<h4>}\TitleMark}{\blocktag{</h4>}}
\Configure{subsubsection}{}{}{\blocktag{<h5>}\TitleMark}{\blocktag{</h5>}}
\ConfigureMark{chapter}{\thechapter}
\ConfigureMark{section}{\thesection\ }
\ConfigureMark{subsection}{\thesubsection\ }
% subsubsection doesn't need mark configuration, as it doesn't produce a number
% handle paragraphs
\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}
\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}
\Configure{textit}{\HCode{<i>}\NoFonts}{\EndNoFonts\HCode{</i>}}
\Configure{emph}{\HCode{<em>}\NoFonts}{\EndNoFonts\HCode{</em>}}
% handle the <a> tag inside sections

\catcode`\:=11

\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
% uncomment the following lines to get correct cross-references
%\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
%\def\Title:Link{\SectionLink}
%\def\EndTitle:Link#1{\EndSectionLink}
\catcode`\:=12


\begin{document}
\EndPreamble

Para lidar com títulos de seção, precisamos fornecer dois comandos de configuração para cada tipo de seção:

 \Configure{sectionname}{at start of section}{at end of section}{section title}{end section title}
 \ConfigureMark{sectionname}{code that prints section number}

Então, para configurar a seção, precisamos usar:

\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\ConfigureMark{section}{\thesection\ }

Isto remove toda a formatação desnecessária produzida pelo TeX4ht.

Então podemos corrigir parágrafos:

\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}

Isso remove o comentário com números de linha e informações sobre recuo. O \EndPcomando insere a tag de fechamento do parágrafo anterior.

Também forneci uma formatação melhor \textbfe comandos semelhantes usando:

\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}

O \NoFontscomando impedirá a inserção de etc. Essas tags são inseridas toda vez que você usa uma fonte não padrão. \NoFontsimpedirá isso. Você precisa usar \EndNoFontspara ligá-lo novamente. Se não quiser usar informações de fonte, você pode desativá-las adicionando NoFontsuma opção ao \Preamblecomando, como:

 \Preamble{xhtml,NoFonts}

A última parte é a mais controversa. O <a>elemento nos títulos das seções é inserido usando o \Title:Linkcomando. Você pode redefini-lo para descartar o link. Por usar o :no nome também é necessário alterar \catcodeeste caractere:

\catcode`\:=11
\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
\catcode`\:=12

Com esta configuração, você obterá o seguinte resultado com

tex4ebook -c mycfg.cfg sample.tex

 <h2>Chapter 1<br /> 
Lorem ipsum</h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3>1.1 Nam amet</h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3>1.2 Lorem gravida</h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

Se você deseja que as referências cruzadas e o TOC funcionem corretamente, sugiro usar a seguinte configuração para `\Title:Link:

\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
\def\Title:Link{\SectionLink}
\def\EndTitle:Link#1{\EndSectionLink}

Define \LinkCommandum novo comando que usa o mecanismo de referência cruzada TeX4ht para produzir links. Em vez do <a>elemento, esta versão produz , \noexpand\:gobbleremove o possível link de saída e idmantém o destino dos links que apontam para a seção.

Com essa alteração, você obterá o seguinte resultado:

  <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

Observe que a seção agora está assim:

  <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>

O Nam ametfoi adicionado pela configuração alterada e id='nam-amet'foi adicionado por tex4ebook, para fornecer um destino de link estável com base no título da seção, em vez da posição da seção, que tem maior probabilidade de mudar.

Há também alguns espaços em branco extras nos parágrafos, que são gerados a partir dos espaços em branco no arquivo DVI. Para me livrar disso, eu usaria os filtros DOM.

O filtro DOM simples para esta tarefa poderia ser assim:

local domfilter = require "make4ht-domfilter"

local function remove_space(node, regex)
  -- remove whitespace only from the text nodes
  if node and node:is_text() then
    node._text = node._text:gsub(regex, "")
  end
end

local filter = domfilter {
  function(dom)
    -- loop over <p> elements
    for _, p in ipairs(dom:query_selector("p")) do
      -- remove <p> elements without text
      local children = p:get_children()
      if #children < 2 and p:get_text():match("^%s*$") then
        p:remove_node()
      else
        local first = children[1]
        local last  = children[#children]
        remove_space(first, "^%s+") -- remove whitespace at the beginning
        remove_space(last, "%s+$") -- remove whitespace at the end of paragraph
      end
    end
    return dom
  end
}

Make:match("html$", filter)

Você pode exigir usando a -eopção:

$ tex4ebook -c mycfg.cfg -e build.lua sample.tex

Este é o resultado:

   <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.</p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.</p><p>Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.</p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.</p><p>A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.</p><p>Eu felis Curabitur quis nibh tellus.</p>

Answer 1

Honestamente, não acho que o que você deseja alcançar seja muito útil. As tags e atributos HTML extras carregam informações semânticas úteis que podem ser usadas para estilo CSS, etc.

Por exemplo este código:

<h3 class='sectionHead'><span class='titlemark'>1.1   </span> <a id='x2-20001.1'></a>Nam amet</h3>
<!-- l. 12 --><p class='noindent'>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum amet.
</p>

<h3 class='sectionHead'>significa que este título foi produzido pelo \sectioncomando, pode ser usado para formatação especial do número da seção. <a id='x2-20001.1'></a>é um destino para links de \refcomandos que apontam para esta seção e também do TOC. Se você remover esta tag, as referências cruzadas deixarão de funcionar. é o número da linha do arquivo TeX original, isso pode ser útil para depuração, mas concordo que não é tão útil quanto as outras tags. significa que este parágrafo não foi pretendido no documento original. Como os arquivos HTML são destinados ao consumo de máquinas, que não se importam com informações extras, você não ganha nada removendo as tags, mas perde bastante.

Dito isto, se você realmente deseja remover todas essas informações, você pode. Existem duas maneiras possíveis. Uma é usar o arquivo de configuração TeX4th para alterar as tags geradas, a outra é usar filtros DOM LuaXML para remover tags programaticamente. Você também pode misturar essas abordagens, para usar o arquivo de configuração para coisas mais fáceis e o arquivo de construção para remover elementos restantes que são difíceis de remover do lado do TeX.

Seu exemplo específico pode ser resolvido usando apenas o arquivo de configuração. Salve o seguinte código como mycfg.cfg:

\Preamble{xhtml}
\def\blocktag#1{\ifvmode\IgnorePar\fi\EndP\HCode{#1}}
\Configure{chapter}{}{}{\blocktag{<h2>}\chaptername\ \TitleMark\HCode{<br />\Hnewline}}{\blocktag{</h2>}}
\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\Configure{subsection}{}{}{\blocktag{<h4>}\TitleMark}{\blocktag{</h4>}}
\Configure{subsubsection}{}{}{\blocktag{<h5>}\TitleMark}{\blocktag{</h5>}}
\ConfigureMark{chapter}{\thechapter}
\ConfigureMark{section}{\thesection\ }
\ConfigureMark{subsection}{\thesubsection\ }
% subsubsection doesn't need mark configuration, as it doesn't produce a number
% handle paragraphs
\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}
\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}
\Configure{textit}{\HCode{<i>}\NoFonts}{\EndNoFonts\HCode{</i>}}
\Configure{emph}{\HCode{<em>}\NoFonts}{\EndNoFonts\HCode{</em>}}
% handle the <a> tag inside sections

\catcode`\:=11

\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
% uncomment the following lines to get correct cross-references
%\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
%\def\Title:Link{\SectionLink}
%\def\EndTitle:Link#1{\EndSectionLink}
\catcode`\:=12


\begin{document}
\EndPreamble

Para lidar com títulos de seção, precisamos fornecer dois comandos de configuração para cada tipo de seção:

 \Configure{sectionname}{at start of section}{at end of section}{section title}{end section title}
 \ConfigureMark{sectionname}{code that prints section number}

Então, para configurar a seção, precisamos usar:

\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\ConfigureMark{section}{\thesection\ }

Isto remove toda a formatação desnecessária produzida pelo TeX4ht.

Então podemos corrigir parágrafos:

\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}

Isso remove o comentário com números de linha e informações sobre recuo. O \EndPcomando insere a tag de fechamento do parágrafo anterior.

Também forneci uma formatação melhor \textbfe comandos semelhantes usando:

\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}

O \NoFontscomando impedirá a inserção de etc. Essas tags são inseridas toda vez que você usa uma fonte não padrão. \NoFontsimpedirá isso. Você precisa usar \EndNoFontspara ligá-lo novamente. Se não quiser usar informações de fonte, você pode desativá-las adicionando NoFontsuma opção ao \Preamblecomando, como:

 \Preamble{xhtml,NoFonts}

A última parte é a mais controversa. O <a>elemento nos títulos das seções é inserido usando o \Title:Linkcomando. Você pode redefini-lo para descartar o link. Por usar o :no nome também é necessário alterar \catcodeeste caractere:

\catcode`\:=11
\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
\catcode`\:=12

Com esta configuração, você obterá o seguinte resultado com

tex4ebook -c mycfg.cfg sample.tex

 <h2>Chapter 1<br /> 
Lorem ipsum</h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3>1.1 Nam amet</h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3>1.2 Lorem gravida</h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

Se você deseja que as referências cruzadas e o TOC funcionem corretamente, sugiro usar a seguinte configuração para `\Title:Link:

\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
\def\Title:Link{\SectionLink}
\def\EndTitle:Link#1{\EndSectionLink}

Define \LinkCommandum novo comando que usa o mecanismo de referência cruzada TeX4ht para produzir links. Em vez do <a>elemento, esta versão produz , \noexpand\:gobbleremove o possível link de saída e idmantém o destino dos links que apontam para a seção.

Com essa alteração, você obterá o seguinte resultado:

  <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

Observe que a seção agora está assim:

  <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>

O Nam ametfoi adicionado pela configuração alterada e id='nam-amet'foi adicionado por tex4ebook, para fornecer um destino de link estável com base no título da seção, em vez da posição da seção, que tem maior probabilidade de mudar.

Há também alguns espaços em branco extras nos parágrafos, que são gerados a partir dos espaços em branco no arquivo DVI. Para me livrar disso, eu usaria os filtros DOM.

O filtro DOM simples para esta tarefa poderia ser assim:

local domfilter = require "make4ht-domfilter"

local function remove_space(node, regex)
  -- remove whitespace only from the text nodes
  if node and node:is_text() then
    node._text = node._text:gsub(regex, "")
  end
end

local filter = domfilter {
  function(dom)
    -- loop over <p> elements
    for _, p in ipairs(dom:query_selector("p")) do
      -- remove <p> elements without text
      local children = p:get_children()
      if #children < 2 and p:get_text():match("^%s*$") then
        p:remove_node()
      else
        local first = children[1]
        local last  = children[#children]
        remove_space(first, "^%s+") -- remove whitespace at the beginning
        remove_space(last, "%s+$") -- remove whitespace at the end of paragraph
      end
    end
    return dom
  end
}

Make:match("html$", filter)

Você pode exigir usando a -eopção:

$ tex4ebook -c mycfg.cfg -e build.lua sample.tex

Este é o resultado:

   <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.</p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.</p><p>Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.</p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.</p><p>A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.</p><p>Eu felis Curabitur quis nibh tellus.</p>

Como posso converter código LaTeX em HTML mínimo?

Responder1

informação relacionada