Rompiendo signos diacríticos en todos los caracteres en mayúsculas

Question

En primer lugar, es absolutamente necesario que le digas a quien está a cargo del proyecto lo que casi estás diciendo en los comentarios: lo que estás pidiendo aquí es la consecuencia de malas decisiones con las que no deberías tener que lidiar. Todo lo que estás haciendo aquí es solucionar estas malas decisiones porque no puedes abordar el problema principal.

Ahora, siempre que sea consciente de ello, la solución alternativa 3 es realmente fácil de realizar utilizando elBase de datos de caracteres Unicode(ver tambiénla descripción detallada), porque tiene las asignaciones de descomposición. El siguiente script, en Lua, hace precisamente eso (siempre que lo tenga UnicodeData.txten el directorio actual). Puedes procesarlo con texlua(no simplemente con Lua porque necesita la lpegbiblioteca).

local P, C, Ct = lpeg.P, lpeg.C, lpeg.Ct
local semicolon = P';'
local field = C((1 - semicolon)^1)
local linepatt = field * (semicolon * field)^0

local space = P' '
local singlechar = C((1 - space)^1)
local ltsign = P'<'
local initchar = C((1 - space - ltsign)^1)
local nfdpatt = Ct(initchar * (space * singlechar)^0)

texaccents = {
    ['0300'] = '\\`',
    ['0301'] = "\\'",
    ['0302'] = '\\^',
    ['0303'] = '\\~',
    ['0308'] = '\\"',
    ['030B'] = '\\H',
    ['030A'] = '\\r',
    ['030C'] = '\\v',
    ['0306'] = '\\u',
    ['0304'] = '\\=',
    ['0307'] = '\\.',
    ['0328'] = '\\k'
}
for line in io.lines('UnicodeData.txt') do
  local usv, _, _, _, _, nfd = linepatt:match(line)
  if nfd then
    local chars = nfdpatt:match(nfd)
    if chars and #chars > 1 then
      local base = chars[1]
      smashedchr = '\\char"' .. base
      for i = 2, #chars do
        local diac = texaccents[chars[i]]
        if diac then
          smashedchr = diac .. '{' .. smashedchr .. '}'
        else
          break
        end
      end

      print('\\DeclareUnicodeCharacter{' .. usv .. '}{\\protect\\vphantom{\\char"' .. base .. '}\\smash{' .. smashedchr .. '}}')
    end
  end
end

Aquí están las primeras líneas que genera:

\DeclareUnicodeCharacter{00C0}{\protect\vphantom{\char"0041}\smash{\`{\char"0041}}}
\DeclareUnicodeCharacter{00C1}{\protect\vphantom{\char"0041}\smash{\'{\char"0041}}}
\DeclareUnicodeCharacter{00C2}{\protect\vphantom{\char"0041}\smash{\^{\char"0041}}}
\DeclareUnicodeCharacter{00C3}{\protect\vphantom{\char"0041}\smash{\~{\char"0041}}}
\DeclareUnicodeCharacter{00C4}{\protect\vphantom{\char"0041}\smash{\"{\char"0041}}}
\DeclareUnicodeCharacter{00C5}{\protect\vphantom{\char"0041}\smash{\r{\char"0041}}}

Tenga en cuenta que los personajes base se incluyen usando \chary no directamente porque fue más fácil hacerlo; Puedo cambiarlo más tarde.

Answer 1

En primer lugar, es absolutamente necesario que le digas a quien está a cargo del proyecto lo que casi estás diciendo en los comentarios: lo que estás pidiendo aquí es la consecuencia de malas decisiones con las que no deberías tener que lidiar. Todo lo que estás haciendo aquí es solucionar estas malas decisiones porque no puedes abordar el problema principal.

Ahora, siempre que sea consciente de ello, la solución alternativa 3 es realmente fácil de realizar utilizando elBase de datos de caracteres Unicode(ver tambiénla descripción detallada), porque tiene las asignaciones de descomposición. El siguiente script, en Lua, hace precisamente eso (siempre que lo tenga UnicodeData.txten el directorio actual). Puedes procesarlo con texlua(no simplemente con Lua porque necesita la lpegbiblioteca).

local P, C, Ct = lpeg.P, lpeg.C, lpeg.Ct
local semicolon = P';'
local field = C((1 - semicolon)^1)
local linepatt = field * (semicolon * field)^0

local space = P' '
local singlechar = C((1 - space)^1)
local ltsign = P'<'
local initchar = C((1 - space - ltsign)^1)
local nfdpatt = Ct(initchar * (space * singlechar)^0)

texaccents = {
    ['0300'] = '\\`',
    ['0301'] = "\\'",
    ['0302'] = '\\^',
    ['0303'] = '\\~',
    ['0308'] = '\\"',
    ['030B'] = '\\H',
    ['030A'] = '\\r',
    ['030C'] = '\\v',
    ['0306'] = '\\u',
    ['0304'] = '\\=',
    ['0307'] = '\\.',
    ['0328'] = '\\k'
}
for line in io.lines('UnicodeData.txt') do
  local usv, _, _, _, _, nfd = linepatt:match(line)
  if nfd then
    local chars = nfdpatt:match(nfd)
    if chars and #chars > 1 then
      local base = chars[1]
      smashedchr = '\\char"' .. base
      for i = 2, #chars do
        local diac = texaccents[chars[i]]
        if diac then
          smashedchr = diac .. '{' .. smashedchr .. '}'
        else
          break
        end
      end

      print('\\DeclareUnicodeCharacter{' .. usv .. '}{\\protect\\vphantom{\\char"' .. base .. '}\\smash{' .. smashedchr .. '}}')
    end
  end
end

Aquí están las primeras líneas que genera:

\DeclareUnicodeCharacter{00C0}{\protect\vphantom{\char"0041}\smash{\`{\char"0041}}}
\DeclareUnicodeCharacter{00C1}{\protect\vphantom{\char"0041}\smash{\'{\char"0041}}}
\DeclareUnicodeCharacter{00C2}{\protect\vphantom{\char"0041}\smash{\^{\char"0041}}}
\DeclareUnicodeCharacter{00C3}{\protect\vphantom{\char"0041}\smash{\~{\char"0041}}}
\DeclareUnicodeCharacter{00C4}{\protect\vphantom{\char"0041}\smash{\"{\char"0041}}}
\DeclareUnicodeCharacter{00C5}{\protect\vphantom{\char"0041}\smash{\r{\char"0041}}}

Tenga en cuenta que los personajes base se incluyen usando \chary no directamente porque fue más fácil hacerlo; Puedo cambiarlo más tarde.

Rompiendo signos diacríticos en todos los caracteres en mayúsculas

Respuesta1

información relacionada