
Alguém conhece uma ferramenta para tabular todos os caracteres Unicode exclusivos e suas contagens em um arquivo?
Responder1
Não tenho certeza do que você quer dizer exatamente com "caracteres unicode". Para contar os diferentes caracteres em um arquivo você poderia fazer algo assim:
$ awk -v FS="" -v OFS="\t" '{for(i=1;i<=NF;i++) char[$i]++} END { for(i in char) print i,char[i]}' input.txt
Com -v FS=""
definimos o separador de campos como nada. Portanto, cada caractere é tratado como um único campo. Em cada linha, iteramos sobre esses campos usando o caractere como chave para a lista e incrementamos a contagem com ++
. Se todas as linhas foram lidas, iteramos sobre a lista de contagem e imprimimos cada chave (que representa o caractere) e sua contagem.