
모든 고유 유니코드 문자와 파일의 개수를 표로 만드는 도구를 아는 사람이 있나요?
답변1
"유니코드 문자"가 정확히 무엇을 의미하는지 잘 모르겠습니다. 파일의 다양한 문자 수를 계산하려면 다음과 같이 할 수 있습니다.
$ awk -v FS="" -v OFS="\t" '{for(i=1;i<=NF;i++) char[$i]++} END { for(i in char) print i,char[i]}' input.txt
-v FS=""
필드 구분 기호를 없음으로 설정했습니다 . 따라서 각 문자는 단일 필드로 처리됩니다. 각 줄에서 문자를 목록의 키로 사용하여 이러한 필드를 반복하고 로 개수를 늘립니다 ++
. 모든 줄을 읽었으면 계산 목록을 반복하고 각 키(문자를 나타냄)와 해당 개수를 인쇄합니다.