
Kennt jemand ein Tool, um alle eindeutigen Unicode-Zeichen und ihre Anzahl in einer Datei tabellarisch darzustellen?
Antwort1
Ich bin mir nicht sicher, was Sie genau mit „Unicode-Zeichen“ meinen. Um die verschiedenen Zeichen in einer Datei zu zählen, könnten Sie so etwas tun:
$ awk -v FS="" -v OFS="\t" '{for(i=1;i<=NF;i++) char[$i]++} END { for(i in char) print i,char[i]}' input.txt
Mit -v FS=""
setzen wir den Feldtrenner auf Null. So wird jedes Zeichen als einzelnes Feld behandelt. In jeder Zeile iterieren wir über diese Felder, wobei wir das Zeichen als Schlüssel für die Liste verwenden und den Zähler mit erhöhen ++
. Wenn alle Zeilen gelesen wurden, iterieren wir über die Zählliste und drucken jeden Schlüssel (der das Zeichen darstellt) und seinen Zähler.