Conjuntos de caracteres necessários para exibir "zalgo" corretamente

Conjuntos de caracteres necessários para exibir "zalgo" corretamente

A resposta a seguir no Stack Overflow é famosa por seu argumento convincente contra o uso de regex para analisar HTML:https://stackoverflow.com/a/1732454/505154

O conteúdo da postagem fica cada vez mais corrompido e o final deve ser algo assim:

zalgo renderizado corretamente

No entanto, no meu laptop com Windows XP, vejo o seguinte:

zalgo substituído por caixas

Como posso fazer com que esses "caracteres" sejam exibidos corretamente?

Responder1

A maneira mais simples é baixar e instalar uma fonte suficientemente grande, comoSímboloe use Firefox ou Chrome.

O problema é duplo. Primeiro, o texto contém sinais diacríticos combinados que não são suportados pelas fontes fornecidas com o Win XP. Existem algumas fontes gratuitas que você pode usar para corrigir isso. Segundo, o IE é ruim na renderização de caracteres quando nenhuma fonte listada na font-familylista aplicável cobre um caractere em um documento HTML. O Chrome e o Firefox fazem um trabalho muito melhor; até o Firefox 3, que testei em um sistema Windows XP virtual, parece lidar bem com a situação: ele coleta os caracteres ausentes de outras fontes no sistema.

Além de páginas que brincam de combinar sinais diacríticos de forma infantil, existem páginas reais que fazem uso de tais sinais. Então é bom estar preparado. Não existe uma fonte única que cubra todos os caracteres; portanto, basta instalar fontes adicionais conforme necessário; Alan Wood tem uma bela página parabaixando fontescom grande repertório de personagens.

Responder2

É mais do que apenas o conjunto de caracteres.

Para exibir isso corretamente, o cliente que renderiza o texto e quaisquer bibliotecas que ele usa para tal precisa oferecer suporte à combinação de marcas unicode, bem como ter as fontes necessárias e suporte para costura de fontes para combinar fontes conforme necessário.

EUpensara fonte principal é Microsoft Sans Serif ou Arial Unicode MS Regular, que vem como padrão em cada versão do Windows, e foi duplamente atualizada extensivamente desde seu lançamento inicial para XP, provavelmente para incluir todas as marcas diacríticas unicode que você vê faltando aqui. Pode haver outras fontes em jogo aqui, usadas para preencher lacunas na fonte principal se estiver faltando um diacrítico específico. Não tenho certeza das implicações legais de baixar uma cópia das fontes atualizadas sem pagar por elas (sem comprar o Windows Vista ou o Windows 7 ou o Windows 8 para o laptop)

Se o problema for falta de suporte na biblioteca de renderização para combinar diacríticos, nenhuma quantidade de fontes ajudará você a exibir o texto corretamente. Sua única opção será atualizar o aplicativo e/ou as bibliotecas que ele usa para renderizar o texto.

informação relacionada