
Кто-нибудь знает инструмент для табулирования всех уникальных символов Unicode и их количества в файле?
решение1
Я не уверен, что именно вы имеете в виду под "символами юникода". Чтобы посчитать различные символы в файле, можно сделать что-то вроде этого:
$ awk -v FS="" -v OFS="\t" '{for(i=1;i<=NF;i++) char[$i]++} END { for(i in char) print i,char[i]}' input.txt
С помощью -v FS=""
мы устанавливаем разделитель полей на ноль. Таким образом, каждый символ обрабатывается как одно поле. В каждой строке мы перебираем эти поля, используя символ в качестве ключа для списка, и увеличиваем счетчик с помощью ++
. Если все строки были прочитаны, мы перебираем список подсчета и выводим каждый ключ (представляющий символ) и его счетчик.