Diakritische Zeichen bei allen Großbuchstaben entfernen

Question

Zunächst einmal müssen Sie dem Verantwortlichen des Projekts unbedingt mitteilen, was Sie in den Kommentaren fast sagen: Was Sie hier verlangen, sind die Konsequenzen schlechter Entscheidungen, mit denen Sie sich nicht befassen sollten. Alles, was Sie hier tun, ist, diese schlechten Entscheidungen zu umgehen, weil Sie das Hauptproblem nicht angehen können.

Wenn Sie sich dessen bewusst sind, können Sie Workaround 3 ganz einfach mit demUnicode-Zeichendatenbank(siehe auchdie detaillierte Beschreibung), weil es die Zerlegungszuordnungen hat. Das folgende Skript in Lua macht genau das (vorausgesetzt, Sie haben es UnicodeData.txtim aktuellen Verzeichnis). Sie können es mit verarbeiten texlua(nicht mit einfachem Lua, weil es die Bibliothek benötigt lpeg).

local P, C, Ct = lpeg.P, lpeg.C, lpeg.Ct
local semicolon = P';'
local field = C((1 - semicolon)^1)
local linepatt = field * (semicolon * field)^0

local space = P' '
local singlechar = C((1 - space)^1)
local ltsign = P'<'
local initchar = C((1 - space - ltsign)^1)
local nfdpatt = Ct(initchar * (space * singlechar)^0)

texaccents = {
    ['0300'] = '\\`',
    ['0301'] = "\\'",
    ['0302'] = '\\^',
    ['0303'] = '\\~',
    ['0308'] = '\\"',
    ['030B'] = '\\H',
    ['030A'] = '\\r',
    ['030C'] = '\\v',
    ['0306'] = '\\u',
    ['0304'] = '\\=',
    ['0307'] = '\\.',
    ['0328'] = '\\k'
}
for line in io.lines('UnicodeData.txt') do
  local usv, _, _, _, _, nfd = linepatt:match(line)
  if nfd then
    local chars = nfdpatt:match(nfd)
    if chars and #chars > 1 then
      local base = chars[1]
      smashedchr = '\\char"' .. base
      for i = 2, #chars do
        local diac = texaccents[chars[i]]
        if diac then
          smashedchr = diac .. '{' .. smashedchr .. '}'
        else
          break
        end
      end

      print('\\DeclareUnicodeCharacter{' .. usv .. '}{\\protect\\vphantom{\\char"' .. base .. '}\\smash{' .. smashedchr .. '}}')
    end
  end
end

Hier sind die ersten paar ausgegebenen Zeilen:

\DeclareUnicodeCharacter{00C0}{\protect\vphantom{\char"0041}\smash{\`{\char"0041}}}
\DeclareUnicodeCharacter{00C1}{\protect\vphantom{\char"0041}\smash{\'{\char"0041}}}
\DeclareUnicodeCharacter{00C2}{\protect\vphantom{\char"0041}\smash{\^{\char"0041}}}
\DeclareUnicodeCharacter{00C3}{\protect\vphantom{\char"0041}\smash{\~{\char"0041}}}
\DeclareUnicodeCharacter{00C4}{\protect\vphantom{\char"0041}\smash{\"{\char"0041}}}
\DeclareUnicodeCharacter{00C5}{\protect\vphantom{\char"0041}\smash{\r{\char"0041}}}

Beachten Sie, dass die Basiszeichen mit \charund nicht direkt eingefügt werden, da dies einfacher war. Ich kann es später ändern.

Answer 1

Zunächst einmal müssen Sie dem Verantwortlichen des Projekts unbedingt mitteilen, was Sie in den Kommentaren fast sagen: Was Sie hier verlangen, sind die Konsequenzen schlechter Entscheidungen, mit denen Sie sich nicht befassen sollten. Alles, was Sie hier tun, ist, diese schlechten Entscheidungen zu umgehen, weil Sie das Hauptproblem nicht angehen können.

Wenn Sie sich dessen bewusst sind, können Sie Workaround 3 ganz einfach mit demUnicode-Zeichendatenbank(siehe auchdie detaillierte Beschreibung), weil es die Zerlegungszuordnungen hat. Das folgende Skript in Lua macht genau das (vorausgesetzt, Sie haben es UnicodeData.txtim aktuellen Verzeichnis). Sie können es mit verarbeiten texlua(nicht mit einfachem Lua, weil es die Bibliothek benötigt lpeg).

local P, C, Ct = lpeg.P, lpeg.C, lpeg.Ct
local semicolon = P';'
local field = C((1 - semicolon)^1)
local linepatt = field * (semicolon * field)^0

local space = P' '
local singlechar = C((1 - space)^1)
local ltsign = P'<'
local initchar = C((1 - space - ltsign)^1)
local nfdpatt = Ct(initchar * (space * singlechar)^0)

texaccents = {
    ['0300'] = '\\`',
    ['0301'] = "\\'",
    ['0302'] = '\\^',
    ['0303'] = '\\~',
    ['0308'] = '\\"',
    ['030B'] = '\\H',
    ['030A'] = '\\r',
    ['030C'] = '\\v',
    ['0306'] = '\\u',
    ['0304'] = '\\=',
    ['0307'] = '\\.',
    ['0328'] = '\\k'
}
for line in io.lines('UnicodeData.txt') do
  local usv, _, _, _, _, nfd = linepatt:match(line)
  if nfd then
    local chars = nfdpatt:match(nfd)
    if chars and #chars > 1 then
      local base = chars[1]
      smashedchr = '\\char"' .. base
      for i = 2, #chars do
        local diac = texaccents[chars[i]]
        if diac then
          smashedchr = diac .. '{' .. smashedchr .. '}'
        else
          break
        end
      end

      print('\\DeclareUnicodeCharacter{' .. usv .. '}{\\protect\\vphantom{\\char"' .. base .. '}\\smash{' .. smashedchr .. '}}')
    end
  end
end

Hier sind die ersten paar ausgegebenen Zeilen:

\DeclareUnicodeCharacter{00C0}{\protect\vphantom{\char"0041}\smash{\`{\char"0041}}}
\DeclareUnicodeCharacter{00C1}{\protect\vphantom{\char"0041}\smash{\'{\char"0041}}}
\DeclareUnicodeCharacter{00C2}{\protect\vphantom{\char"0041}\smash{\^{\char"0041}}}
\DeclareUnicodeCharacter{00C3}{\protect\vphantom{\char"0041}\smash{\~{\char"0041}}}
\DeclareUnicodeCharacter{00C4}{\protect\vphantom{\char"0041}\smash{\"{\char"0041}}}
\DeclareUnicodeCharacter{00C5}{\protect\vphantom{\char"0041}\smash{\r{\char"0041}}}

Beachten Sie, dass die Basiszeichen mit \charund nicht direkt eingefügt werden, da dies einfacher war. Ich kann es später ändern.

Diakritische Zeichen bei allen Großbuchstaben entfernen

Antwort1

verwandte Informationen