
¿Alguien conoce una herramienta para tabular todos los caracteres Unicode únicos y sus recuentos en un archivo?
Respuesta1
No estoy seguro de qué quieres decir exactamente con "caracteres Unicode". Para contar los diferentes caracteres de un archivo puedes hacer algo como esto:
$ awk -v FS="" -v OFS="\t" '{for(i=1;i<=NF;i++) char[$i]++} END { for(i in char) print i,char[i]}' input.txt
Con -v FS=""
establecemos el separador de campo en nada. Por tanto, cada carácter se maneja como un único campo. En cada línea iteramos sobre estos campos usando el carácter como clave para la lista e incrementamos el recuento con ++
. Si se leyeron todas las líneas, iteramos sobre la lista de conteo e imprimimos cada clave (que representa el carácter) y su conteo.