Уничтожение диакритических знаков на всех заглавных буквах

Question

Прежде всего, вам абсолютно необходимо сказать тому, кто отвечает за проект, то, что вы почти говорите в комментариях: то, что вы просите сделать здесь, является следствием плохих решений, с которыми вам не следует иметь дело. Все, что вы здесь делаете, это работаете вокруг этих плохих решений, потому что вы не можете справиться с главной проблемой.

Теперь, если вы это знаете, ваш обходной путь 3 действительно легко реализовать с помощьюБаза данных символов Unicode(смотрите такжеподробное описание), потому что у него есть отображения декомпозиции. Следующий скрипт на Lua делает именно это (при условии, что у вас есть UnicodeData.txtв текущем каталоге). Вы можете обработать его с помощью texlua(не просто Lua, потому что ему нужна lpegбиблиотека).

local P, C, Ct = lpeg.P, lpeg.C, lpeg.Ct
local semicolon = P';'
local field = C((1 - semicolon)^1)
local linepatt = field * (semicolon * field)^0

local space = P' '
local singlechar = C((1 - space)^1)
local ltsign = P'<'
local initchar = C((1 - space - ltsign)^1)
local nfdpatt = Ct(initchar * (space * singlechar)^0)

texaccents = {
    ['0300'] = '\\`',
    ['0301'] = "\\'",
    ['0302'] = '\\^',
    ['0303'] = '\\~',
    ['0308'] = '\\"',
    ['030B'] = '\\H',
    ['030A'] = '\\r',
    ['030C'] = '\\v',
    ['0306'] = '\\u',
    ['0304'] = '\\=',
    ['0307'] = '\\.',
    ['0328'] = '\\k'
}
for line in io.lines('UnicodeData.txt') do
  local usv, _, _, _, _, nfd = linepatt:match(line)
  if nfd then
    local chars = nfdpatt:match(nfd)
    if chars and #chars > 1 then
      local base = chars[1]
      smashedchr = '\\char"' .. base
      for i = 2, #chars do
        local diac = texaccents[chars[i]]
        if diac then
          smashedchr = diac .. '{' .. smashedchr .. '}'
        else
          break
        end
      end

      print('\\DeclareUnicodeCharacter{' .. usv .. '}{\\protect\\vphantom{\\char"' .. base .. '}\\smash{' .. smashedchr .. '}}')
    end
  end
end

Вот первые несколько строк, которые он выводит:

\DeclareUnicodeCharacter{00C0}{\protect\vphantom{\char"0041}\smash{\`{\char"0041}}}
\DeclareUnicodeCharacter{00C1}{\protect\vphantom{\char"0041}\smash{\'{\char"0041}}}
\DeclareUnicodeCharacter{00C2}{\protect\vphantom{\char"0041}\smash{\^{\char"0041}}}
\DeclareUnicodeCharacter{00C3}{\protect\vphantom{\char"0041}\smash{\~{\char"0041}}}
\DeclareUnicodeCharacter{00C4}{\protect\vphantom{\char"0041}\smash{\"{\char"0041}}}
\DeclareUnicodeCharacter{00C5}{\protect\vphantom{\char"0041}\smash{\r{\char"0041}}}

Обратите внимание, что базовые символы включены с помощью \char, а не напрямую, потому что так было проще; я смогу изменить это позже.

Answer 1

Прежде всего, вам абсолютно необходимо сказать тому, кто отвечает за проект, то, что вы почти говорите в комментариях: то, что вы просите сделать здесь, является следствием плохих решений, с которыми вам не следует иметь дело. Все, что вы здесь делаете, это работаете вокруг этих плохих решений, потому что вы не можете справиться с главной проблемой.

Теперь, если вы это знаете, ваш обходной путь 3 действительно легко реализовать с помощьюБаза данных символов Unicode(смотрите такжеподробное описание), потому что у него есть отображения декомпозиции. Следующий скрипт на Lua делает именно это (при условии, что у вас есть UnicodeData.txtв текущем каталоге). Вы можете обработать его с помощью texlua(не просто Lua, потому что ему нужна lpegбиблиотека).

local P, C, Ct = lpeg.P, lpeg.C, lpeg.Ct
local semicolon = P';'
local field = C((1 - semicolon)^1)
local linepatt = field * (semicolon * field)^0

local space = P' '
local singlechar = C((1 - space)^1)
local ltsign = P'<'
local initchar = C((1 - space - ltsign)^1)
local nfdpatt = Ct(initchar * (space * singlechar)^0)

texaccents = {
    ['0300'] = '\\`',
    ['0301'] = "\\'",
    ['0302'] = '\\^',
    ['0303'] = '\\~',
    ['0308'] = '\\"',
    ['030B'] = '\\H',
    ['030A'] = '\\r',
    ['030C'] = '\\v',
    ['0306'] = '\\u',
    ['0304'] = '\\=',
    ['0307'] = '\\.',
    ['0328'] = '\\k'
}
for line in io.lines('UnicodeData.txt') do
  local usv, _, _, _, _, nfd = linepatt:match(line)
  if nfd then
    local chars = nfdpatt:match(nfd)
    if chars and #chars > 1 then
      local base = chars[1]
      smashedchr = '\\char"' .. base
      for i = 2, #chars do
        local diac = texaccents[chars[i]]
        if diac then
          smashedchr = diac .. '{' .. smashedchr .. '}'
        else
          break
        end
      end

      print('\\DeclareUnicodeCharacter{' .. usv .. '}{\\protect\\vphantom{\\char"' .. base .. '}\\smash{' .. smashedchr .. '}}')
    end
  end
end

Вот первые несколько строк, которые он выводит:

\DeclareUnicodeCharacter{00C0}{\protect\vphantom{\char"0041}\smash{\`{\char"0041}}}
\DeclareUnicodeCharacter{00C1}{\protect\vphantom{\char"0041}\smash{\'{\char"0041}}}
\DeclareUnicodeCharacter{00C2}{\protect\vphantom{\char"0041}\smash{\^{\char"0041}}}
\DeclareUnicodeCharacter{00C3}{\protect\vphantom{\char"0041}\smash{\~{\char"0041}}}
\DeclareUnicodeCharacter{00C4}{\protect\vphantom{\char"0041}\smash{\"{\char"0041}}}
\DeclareUnicodeCharacter{00C5}{\protect\vphantom{\char"0041}\smash{\r{\char"0041}}}

Обратите внимание, что базовые символы включены с помощью \char, а не напрямую, потому что так было проще; я смогу изменить это позже.

Уничтожение диакритических знаков на всех заглавных буквах

решение1

Связанный контент