
ファイル内のすべての一意の Unicode 文字とその数を表にまとめるツールを知っている人はいますか?
答え1
「Unicode 文字」が正確に何を意味するのかわかりません。ファイル内の異なる文字を数えるには、次のようにします。
$ awk -v FS="" -v OFS="\t" '{for(i=1;i<=NF;i++) char[$i]++} END { for(i in char) print i,char[i]}' input.txt
では、-v FS=""
フィールド区切り文字を何も設定しません。そのため、各文字は単一のフィールドとして扱われます。各行では、文字をリストのキーとして使用してこれらのフィールドを反復処理し、 でカウントを増分します++
。すべての行が読み取られた場合は、カウント リストを反復処理し、各キー (文字を表す) とそのカウントを出力します。