LaTeX 코드를 최소한의 HTML로 변환하려면 어떻게 해야 합니까?

Question

솔직히, 나는 당신이 달성하고 싶은 것이 너무 유용하다고 생각하지 않습니다. 추가 HTML 태그와 속성은 CSS 스타일링 등에 사용할 수 있는 유용한 의미 정보를 전달합니다.

예를 들어 다음 코드는 다음과 같습니다.

<h3 class='sectionHead'><span class='titlemark'>1.1   </span> <a id='x2-20001.1'></a>Nam amet</h3>
<!-- l. 12 --><p class='noindent'>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum amet.
</p>

<h3 class='sectionHead'>\section이는 이 제목이 명령 에 의해 생성되었음을 의미하며 섹션 번호의 특수 형식화에 사용될 수 있습니다. 이 섹션을 가리키는 명령과 TOC의 <a id='x2-20001.1'></a>링크 대상입니다 . \ref이 태그를 제거하면 상호 참조가 작동하지 않습니다. 는 원본 TeX 파일의 줄 번호입니다. 이는 디버깅에 유용할 수 있지만 다른 태그만큼 유용하지는 않다는 데 동의합니다. 이는 이 단락이 원본 문서에서 의도된 것이 아니라는 의미입니다. HTML 파일은 추가 정보에 신경 쓰지 않는 기계에서 사용하기 위한 것이므로 태그를 제거해도 아무 것도 얻지 못하지만 상당히 많은 손실이 발생합니다.

따라서 이 모든 정보를 정말로 제거하고 싶다면 그렇게 할 수 있습니다. 두 가지 가능한 방법이 있습니다. 하나는 TeX4th 구성 파일을 사용하여 생성된 태그를 변경하는 것이고, 다른 하나는 LuaXML DOM 필터를 사용하여 프로그래밍 방식으로 태그를 제거하는 것입니다. 또한 이러한 접근 방식을 혼합하여 더 쉬운 작업을 위해 구성 파일을 사용하고 TeX 측에서 제거하기 어려운 나머지 요소를 제거하기 위해 빌드 파일을 사용할 수도 있습니다.

특정 예는 구성 파일만 사용하여 해결할 수 있습니다. 다음 코드를 다음과 같이 저장합니다 mycfg.cfg.

\Preamble{xhtml}
\def\blocktag#1{\ifvmode\IgnorePar\fi\EndP\HCode{#1}}
\Configure{chapter}{}{}{\blocktag{<h2>}\chaptername\ \TitleMark\HCode{<br />\Hnewline}}{\blocktag{</h2>}}
\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\Configure{subsection}{}{}{\blocktag{<h4>}\TitleMark}{\blocktag{</h4>}}
\Configure{subsubsection}{}{}{\blocktag{<h5>}\TitleMark}{\blocktag{</h5>}}
\ConfigureMark{chapter}{\thechapter}
\ConfigureMark{section}{\thesection\ }
\ConfigureMark{subsection}{\thesubsection\ }
% subsubsection doesn't need mark configuration, as it doesn't produce a number
% handle paragraphs
\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}
\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}
\Configure{textit}{\HCode{<i>}\NoFonts}{\EndNoFonts\HCode{</i>}}
\Configure{emph}{\HCode{<em>}\NoFonts}{\EndNoFonts\HCode{</em>}}
% handle the <a> tag inside sections

\catcode`\:=11

\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
% uncomment the following lines to get correct cross-references
%\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
%\def\Title:Link{\SectionLink}
%\def\EndTitle:Link#1{\EndSectionLink}
\catcode`\:=12


\begin{document}
\EndPreamble

섹션 제목을 처리하려면 각 섹션 유형에 대해 두 가지 구성 명령을 제공해야 합니다.

 \Configure{sectionname}{at start of section}{at end of section}{section title}{end section title}
 \ConfigureMark{sectionname}{code that prints section number}

따라서 섹션을 구성하려면 다음을 사용해야 합니다.

\Configure{section}{}{}{\blocktag{<h3>}\TitleMark}{\blocktag{</h3>}}
\ConfigureMark{section}{\thesection\ }

이렇게 하면 TeX4ht에서 생성된 불필요한 서식이 모두 제거됩니다.

그런 다음 단락을 수정할 수 있습니다.

\Configure{HtmlPar}{\EndP\HCode{<p>}}{\EndP\HCode{<p>}}{\HCode{</p>}}{\HCode{</p>}}

줄 번호와 들여쓰기에 대한 정보가 포함된 주석이 제거됩니다. 이 \EndP명령은 이전 단락의 닫는 태그를 삽입합니다.

\textbf또한 다음을 사용하여 유사한 명령 에 대해 더 좋은 형식을 제공했습니다 .

\Configure{textbf}{\HCode{<b>}\NoFonts}{\EndNoFonts\HCode{</b>}}

이 \NoFonts명령은 등의 삽입을 방지합니다 . 이러한 태그는 기본이 아닌 글꼴을 사용할 때마다 삽입됩니다. \NoFonts그것을 방지할 것입니다. \EndNoFonts다시 켜려면 를 사용해야 합니다 . 글꼴 정보를 전혀 사용하지 않으려면 다음과 같이 명령 NoFonts에 옵션을 추가하여 비활성화할 수 있습니다 \Preamble.

 \Preamble{xhtml,NoFonts}

마지막 부분이 가장 논란의 여지가 있습니다. <a>섹션 제목의 요소는 명령을 사용하여 삽입 됩니다 \Title:Link. 이를 재정의하여 링크를 삭제할 수 있습니다. :이름에 the를 사용하기 때문에 \catcode이 문자도 변경해야 합니다.

\catcode`\:=11
\def\Title:Link#1#2{}
\def\EndTitle:Link#1{}
\catcode`\:=12

이 구성을 사용하면 다음과 같은 결과를 얻을 수 있습니다.

tex4ebook -c mycfg.cfg sample.tex

 <h2>Chapter 1<br /> 
Lorem ipsum</h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3>1.1 Nam amet</h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3>1.2 Lorem gravida</h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

상호 참조와 TOC가 올바르게 작동하도록 하려면 `\Title:Link에 대해 다음 구성을 사용하는 것이 좋습니다.

\LinkCommand\SectionLink{span,\noexpand\:gobble,id}
\def\Title:Link{\SectionLink}
\def\EndTitle:Link#1{\EndSectionLink}

\LinkCommandTeX4ht 상호 참조 메커니즘을 사용하여 링크를 생성하는 새 명령을 정의합니다 . 요소 대신 <a>이 버전은 가능한 출력 링크를 생성하고 제거하며 섹션 을 가리키는 링크의 대상을 보유합니다.\noexpand\:gobbleid

이렇게 변경하면 다음과 같은 결과를 얻게 됩니다.

  <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>   Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.
   </p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>   Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.
</p><p>   Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.
</p><p>
   </p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>   Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.
</p><p>   A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.
</p><p>   Eu felis Curabitur quis nibh tellus.
   </p>

이제 해당 섹션은 다음과 같습니다.

  <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>

Nam amet변경된 구성에 의해 가 추가되었으며, 변경 가능성이 높은 섹션 위치 대신 섹션 제목을 기반으로 안정적인 링크 대상을 제공하기 위해 id='nam-amet'추가되었습니다 .tex4ebook

DVI 파일의 공백에서 생성된 몇 가지 추가 공백 i 단락도 있습니다. 이를 제거하기 위해 DOM 필터를 사용합니다.

이 작업에 대한 간단한 DOM 필터는 다음과 같습니다.

local domfilter = require "make4ht-domfilter"

local function remove_space(node, regex)
  -- remove whitespace only from the text nodes
  if node and node:is_text() then
    node._text = node._text:gsub(regex, "")
  end
end

local filter = domfilter {
  function(dom)
    -- loop over <p> elements
    for _, p in ipairs(dom:query_selector("p")) do
      -- remove <p> elements without text
      local children = p:get_children()
      if #children < 2 and p:get_text():match("^%s*$") then
        p:remove_node()
      else
        local first = children[1]
        local last  = children[#children]
        remove_space(first, "^%s+") -- remove whitespace at the beginning
        remove_space(last, "%s+$") -- remove whitespace at the end of paragraph
      end
    end
    return dom
  end
}

Make:match("html$", filter)

다음 옵션을 사용하여 요구할 수 있습니다 -e.

$ tex4ebook -c mycfg.cfg -e build.lua sample.tex

결과는 다음과 같습니다.

   <h2 id='lorem-ipsum'>Chapter 1<br /> 
<span id='x2-10001'>Lorem ipsum</span></h2>
<p>Dolor sit amet consectetuer eros sit quis mauris pretium. Phasellus penatibus
interdum dolor Ut nisl.</p>
   <h3 id='nam-amet'>1.1 <span id='x2-20001.1'>Nam amet</span></h3>
<p>Adipiscing est leo convallis nunc interdum Lorem hendrerit Vestibulum
amet.</p><p>Facilisi Nulla ultrices malesuada orci nibh eget ac Aliquam eros ut.</p>
   <h3 id='lorem-gravida'>1.2 <span id='x2-30001.2'>Lorem gravida</span></h3>
<p>Oorci sociis Nunc id hendrerit at ac amet Pellentesque. Eleifend risus orci sem
Sed ac.</p><p>A nec pellentesque Pellentesque Morbi fringilla accumsan et metus at
enim.</p><p>Eu felis Curabitur quis nibh tellus.</p>

Answer 1