Existe uma ferramenta rápida para mostrar todos os caracteres Unicode exclusivos em um arquivo e sua contagem?

Existe uma ferramenta rápida para mostrar todos os caracteres Unicode exclusivos em um arquivo e sua contagem?

Alguém conhece uma ferramenta para tabular todos os caracteres Unicode exclusivos e suas contagens em um arquivo?

Responder1

Não tenho certeza do que você quer dizer exatamente com "caracteres unicode". Para contar os diferentes caracteres em um arquivo você poderia fazer algo assim:

$ awk -v FS="" -v OFS="\t" '{for(i=1;i<=NF;i++) char[$i]++} END { for(i in char) print i,char[i]}' input.txt

Com -v FS=""definimos o separador de campos como nada. Portanto, cada caractere é tratado como um único campo. Em cada linha, iteramos sobre esses campos usando o caractere como chave para a lista e incrementamos a contagem com ++. Se todas as linhas foram lidas, iteramos sobre a lista de contagem e imprimimos cada chave (que representa o caractere) e sua contagem.

informação relacionada