Как преобразовать код LaTeX в минимальный HTML?

Question

Честно говоря, я не думаю, что то, чего вы хотите добиться, слишком полезно. Дополнительные теги и атрибуты HTML несут полезную семантическую информацию, которую затем можно использовать для стилей CSS и т. д.

Например, этот код:

<h3 class='sectionHead'><span class='titlemark'>1.1   </span> <a id='x2-20001.1'></a>Nam amet</h3>
<!-- l. 12 --><p class='noindent'>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum amet.
</p>

<h3 class='sectionHead'>означает, что этот заголовок был создан командой \section, может использоваться для специального форматирования номера раздела. <a id='x2-20001.1'></a>является местом назначения для ссылок из \refкоманд, указывающих на этот раздел, а также из TOC. Если удалить этот тег, перекрестные ссылки перестанут работать. является номером строки исходного файла TeX, это может быть полезно для отладки, но я согласен, что это не так полезно, как другие теги. означает, что этот абзац не был предусмотрен в исходном документе. Поскольку файлы HTML предназначены для использования машинами, которые не против дополнительной информации, вы ничего не выигрываете, удаляя теги, но теряете довольно много.

С учетом сказанного, если вы действительно хотите удалить всю эту информацию, вы можете это сделать. Есть два возможных способа. Один из них — использовать файл конфигурации TeX4th для изменения сгенерированных тегов, другой — использовать фильтры LuaXML DOM для программного удаления тегов. Вы также можете смешивать эти подходы, использовать файл конфигурации для более простых вещей и файл сборки для удаления оставшихся элементов, которые трудно удалить со стороны TeX.

Ваш конкретный пример может быть решен с использованием только файла конфигурации. Сохраните следующий код как mycfg.cfg:

\Preamble{xhtml}
\def\blocktag#1{\ifvmode\IgnorePar\fi\EndP\HCode{#1}}
\Configure{chapter}{}{}{\blocktag{<h2>}\chaptername\ \TitleMark\HCode{<br />\Hnewline}}{\blocktag{</h2>}}
\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\Configure{subsection}{}{}{\blocktag{<h4>}\TitleMark}{\blocktag{</h4>}}
\Configure{subsubsection}{}{}{\blocktag{<h5>}\TitleMark}{\blocktag{</h5>}}
\ConfigureMark{chapter}{\thechapter}
\ConfigureMark{section}{\thesection\ }
\ConfigureMark{subsection}{\thesubsection\ }
% subsubsection doesn't need mark configuration, as it doesn't produce a number
% handle paragraphs
\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}
\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}
\Configure{textit}{\HCode{<i>}\NoFonts}{\EndNoFonts\HCode{</i>}}
\Configure{emph}{\HCode{<em>}\NoFonts}{\EndNoFonts\HCode{</em>}}
% handle the <a> tag inside sections

\catcode`\:=11

\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
% uncomment the following lines to get correct cross-references
%\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
%\def\Title:Link{\SectionLink}
%\def\EndTitle:Link#1{\EndSectionLink}
\catcode`\:=12


\begin{document}
\EndPreamble

Для обработки заголовков разделов нам необходимо предоставить две команды конфигурации для каждого типа секционирования:

 \Configure{sectionname}{at start of section}{at end of section}{section title}{end section title}
 \ConfigureMark{sectionname}{code that prints section number}

Итак, чтобы настроить раздел, нам нужно использовать:

\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\ConfigureMark{section}{\thesection\ }

Это удалит все ненужное форматирование, созданное TeX4ht.

Затем мы можем исправить абзацы:

\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}

Это удалит комментарий с номерами строк и информацией об отступах. \EndPКоманда вставит закрывающий тег для предыдущего абзаца.

Я также предоставил более удобное форматирование для \textbfи подобных команд, используя:

\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}

Команда \NoFontsпредотвратит вставку и т. д. Эти теги вставляются каждый раз, когда вы используете шрифт, отличный от шрифта по умолчанию. \NoFontsпредотвратит это. Вам нужно использовать , \EndNoFontsчтобы снова включить его. Если вы вообще не хотите использовать информацию о шрифте, вы можете отключить ее, добавив NoFontsопцию к \Preambleкоманде, например:

 \Preamble{xhtml,NoFonts}

Последний бит самый спорный. <a>Элемент в заголовках разделов вставляется с помощью \Title:Linkкоманды. Вы можете переопределить его, чтобы отбросить ссылку. Поскольку он использует :в своем имени, необходимо также изменить \catcodeэтот символ:

\catcode`\:=11
\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
\catcode`\:=12

При такой конфигурации вы получите следующий результат

tex4ebook -c mycfg.cfg sample.tex

 <h2>Chapter 1<br /> 
Lorem ipsum</h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3>1.1 Nam amet</h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3>1.2 Lorem gravida</h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

Если вы хотите, чтобы перекрестные ссылки и оглавление работали правильно, я бы рекомендовал использовать следующую конфигурацию для `\Title:Link:

\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
\def\Title:Link{\SectionLink}
\def\EndTitle:Link#1{\EndSectionLink}

Определяет \LinkCommandновую команду, которая использует механизм перекрестных ссылок TeX4ht для создания ссылок. Вместо элемента <a>эта версия создает , \noexpand\:gobbleудаляет возможную ссылку out и idудерживает назначение для ссылок, указывающих на раздел.

С этим изменением вы получите следующий результат:

  <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

Обратите внимание, что теперь раздел выглядит так:

  <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>

Был Nam ametдобавлен измененной конфигурацией и id='nam-amet'был добавлен tex4ebook, чтобы обеспечить стабильное назначение ссылки на основе заголовка раздела, а не положения раздела, которое с большей вероятностью изменится.

Также есть некоторые дополнительные пробелы в абзацах, которые генерируются из пробелов в файле DVI. Чтобы избавиться от этого, я бы использовал фильтры DOM.

Простой DOM-фильтр для этой задачи может выглядеть так:

local domfilter = require "make4ht-domfilter"

local function remove_space(node, regex)
  -- remove whitespace only from the text nodes
  if node and node:is_text() then
    node._text = node._text:gsub(regex, "")
  end
end

local filter = domfilter {
  function(dom)
    -- loop over <p> elements
    for _, p in ipairs(dom:query_selector("p")) do
      -- remove <p> elements without text
      local children = p:get_children()
      if #children < 2 and p:get_text():match("^%s*$") then
        p:remove_node()
      else
        local first = children[1]
        local last  = children[#children]
        remove_space(first, "^%s+") -- remove whitespace at the beginning
        remove_space(last, "%s+$") -- remove whitespace at the end of paragraph
      end
    end
    return dom
  end
}

Make:match("html$", filter)

Вы можете потребовать, используя -eопцию:

$ tex4ebook -c mycfg.cfg -e build.lua sample.tex

Вот результат:

   <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.</p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.</p><p>Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.</p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.</p><p>A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.</p><p>Eu felis Curabitur quis nibh tellus.</p>

Answer 1

Честно говоря, я не думаю, что то, чего вы хотите добиться, слишком полезно. Дополнительные теги и атрибуты HTML несут полезную семантическую информацию, которую затем можно использовать для стилей CSS и т. д.

Например, этот код:

<h3 class='sectionHead'><span class='titlemark'>1.1   </span> <a id='x2-20001.1'></a>Nam amet</h3>
<!-- l. 12 --><p class='noindent'>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum amet.
</p>

<h3 class='sectionHead'>означает, что этот заголовок был создан командой \section, может использоваться для специального форматирования номера раздела. <a id='x2-20001.1'></a>является местом назначения для ссылок из \refкоманд, указывающих на этот раздел, а также из TOC. Если удалить этот тег, перекрестные ссылки перестанут работать. является номером строки исходного файла TeX, это может быть полезно для отладки, но я согласен, что это не так полезно, как другие теги. означает, что этот абзац не был предусмотрен в исходном документе. Поскольку файлы HTML предназначены для использования машинами, которые не против дополнительной информации, вы ничего не выигрываете, удаляя теги, но теряете довольно много.

С учетом сказанного, если вы действительно хотите удалить всю эту информацию, вы можете это сделать. Есть два возможных способа. Один из них — использовать файл конфигурации TeX4th для изменения сгенерированных тегов, другой — использовать фильтры LuaXML DOM для программного удаления тегов. Вы также можете смешивать эти подходы, использовать файл конфигурации для более простых вещей и файл сборки для удаления оставшихся элементов, которые трудно удалить со стороны TeX.

Ваш конкретный пример может быть решен с использованием только файла конфигурации. Сохраните следующий код как mycfg.cfg:

\Preamble{xhtml}
\def\blocktag#1{\ifvmode\IgnorePar\fi\EndP\HCode{#1}}
\Configure{chapter}{}{}{\blocktag{<h2>}\chaptername\ \TitleMark\HCode{<br />\Hnewline}}{\blocktag{</h2>}}
\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\Configure{subsection}{}{}{\blocktag{<h4>}\TitleMark}{\blocktag{</h4>}}
\Configure{subsubsection}{}{}{\blocktag{<h5>}\TitleMark}{\blocktag{</h5>}}
\ConfigureMark{chapter}{\thechapter}
\ConfigureMark{section}{\thesection\ }
\ConfigureMark{subsection}{\thesubsection\ }
% subsubsection doesn't need mark configuration, as it doesn't produce a number
% handle paragraphs
\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}
\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}
\Configure{textit}{\HCode{<i>}\NoFonts}{\EndNoFonts\HCode{</i>}}
\Configure{emph}{\HCode{<em>}\NoFonts}{\EndNoFonts\HCode{</em>}}
% handle the <a> tag inside sections

\catcode`\:=11

\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
% uncomment the following lines to get correct cross-references
%\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
%\def\Title:Link{\SectionLink}
%\def\EndTitle:Link#1{\EndSectionLink}
\catcode`\:=12


\begin{document}
\EndPreamble

Для обработки заголовков разделов нам необходимо предоставить две команды конфигурации для каждого типа секционирования:

 \Configure{sectionname}{at start of section}{at end of section}{section title}{end section title}
 \ConfigureMark{sectionname}{code that prints section number}

Итак, чтобы настроить раздел, нам нужно использовать:

\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\ConfigureMark{section}{\thesection\ }

Это удалит все ненужное форматирование, созданное TeX4ht.

Затем мы можем исправить абзацы:

\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}

Это удалит комментарий с номерами строк и информацией об отступах. \EndPКоманда вставит закрывающий тег для предыдущего абзаца.

Я также предоставил более удобное форматирование для \textbfи подобных команд, используя:

\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}

Команда \NoFontsпредотвратит вставку и т. д. Эти теги вставляются каждый раз, когда вы используете шрифт, отличный от шрифта по умолчанию. \NoFontsпредотвратит это. Вам нужно использовать , \EndNoFontsчтобы снова включить его. Если вы вообще не хотите использовать информацию о шрифте, вы можете отключить ее, добавив NoFontsопцию к \Preambleкоманде, например:

 \Preamble{xhtml,NoFonts}

Последний бит самый спорный. <a>Элемент в заголовках разделов вставляется с помощью \Title:Linkкоманды. Вы можете переопределить его, чтобы отбросить ссылку. Поскольку он использует :в своем имени, необходимо также изменить \catcodeэтот символ:

\catcode`\:=11
\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
\catcode`\:=12

При такой конфигурации вы получите следующий результат

tex4ebook -c mycfg.cfg sample.tex

 <h2>Chapter 1<br /> 
Lorem ipsum</h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3>1.1 Nam amet</h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3>1.2 Lorem gravida</h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

Если вы хотите, чтобы перекрестные ссылки и оглавление работали правильно, я бы рекомендовал использовать следующую конфигурацию для `\Title:Link:

\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
\def\Title:Link{\SectionLink}
\def\EndTitle:Link#1{\EndSectionLink}

Определяет \LinkCommandновую команду, которая использует механизм перекрестных ссылок TeX4ht для создания ссылок. Вместо элемента <a>эта версия создает , \noexpand\:gobbleудаляет возможную ссылку out и idудерживает назначение для ссылок, указывающих на раздел.

С этим изменением вы получите следующий результат:

  <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

Обратите внимание, что теперь раздел выглядит так:

  <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>

Был Nam ametдобавлен измененной конфигурацией и id='nam-amet'был добавлен tex4ebook, чтобы обеспечить стабильное назначение ссылки на основе заголовка раздела, а не положения раздела, которое с большей вероятностью изменится.

Также есть некоторые дополнительные пробелы в абзацах, которые генерируются из пробелов в файле DVI. Чтобы избавиться от этого, я бы использовал фильтры DOM.

Простой DOM-фильтр для этой задачи может выглядеть так:

local domfilter = require "make4ht-domfilter"

local function remove_space(node, regex)
  -- remove whitespace only from the text nodes
  if node and node:is_text() then
    node._text = node._text:gsub(regex, "")
  end
end

local filter = domfilter {
  function(dom)
    -- loop over <p> elements
    for _, p in ipairs(dom:query_selector("p")) do
      -- remove <p> elements without text
      local children = p:get_children()
      if #children < 2 and p:get_text():match("^%s*$") then
        p:remove_node()
      else
        local first = children[1]
        local last  = children[#children]
        remove_space(first, "^%s+") -- remove whitespace at the beginning
        remove_space(last, "%s+$") -- remove whitespace at the end of paragraph
      end
    end
    return dom
  end
}

Make:match("html$", filter)

Вы можете потребовать, используя -eопцию:

$ tex4ebook -c mycfg.cfg -e build.lua sample.tex

Вот результат:

   <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.</p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.</p><p>Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.</p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.</p><p>A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.</p><p>Eu felis Curabitur quis nibh tellus.</p>

Как преобразовать код LaTeX в минимальный HTML?

решение1

Связанный контент