テキストファイル内の行にわたる列数の頻度を印刷する

Question 1

GNU awk の最新バージョン (> 4.0) をお持ちの場合:

gawk '
  {a[NF]++} 
  END {
    PROCINFO["sorted_in"]="@ind_num_asc"; 
    for (i in a) printf "%d (%d)\n", a[i], i;
  }' file
4 (1)
1 (3)
3 (4)
1 (9)

Answer

GNU awk の最新バージョン (> 4.0) をお持ちの場合:

gawk '
  {a[NF]++} 
  END {
    PROCINFO["sorted_in"]="@ind_num_asc"; 
    for (i in a) printf "%d (%d)\n", a[i], i;
  }' file
4 (1)
1 (3)
3 (4)
1 (9)

Question 2

驚いて見るアプローチ（asorti関数を使用）：

awk '{a[NF]++}END{ asorti(a,b); for(i in b) printf("%d (%d)\n",a[b[i]],b[i]) }' file

出力：

4 (1)
1 (3)
3 (4)
1 (9)

asorti(a,b)- 配列をインデックスでソートする

Answer

驚いて見るアプローチ（asorti関数を使用）：

awk '{a[NF]++}END{ asorti(a,b); for(i in b) printf("%d (%d)\n",a[b[i]],b[i]) }' file

出力：

4 (1)
1 (3)
3 (4)
1 (9)

asorti(a,b)- 配列をインデックスでソートする

Question 3

テーブル内の各セルをプレースホルダーとして扱い、目的の結果を作成すると、重複する行を並べ替えてカウントし、同じ数の列を持つ行がいくつあるかを特定できます。

a=$(sed 's/\([0-9]\+\)/1/g' file | sort | uniq -c)
dups=$( echo "$a" | cut -d' ' -f7 )

その後、各行の単語数を数えて、行に何列あるかを特定できます。

words=$(echo "$a" | cut -d' ' -f8- | awk '{print NF}')
paste <(echo "$dups") <(echo "$words")
4       1
1       3
3       4
1       9

Answer

テーブル内の各セルをプレースホルダーとして扱い、目的の結果を作成すると、重複する行を並べ替えてカウントし、同じ数の列を持つ行がいくつあるかを特定できます。

a=$(sed 's/\([0-9]\+\)/1/g' file | sort | uniq -c)
dups=$( echo "$a" | cut -d' ' -f7 )

その後、各行の単語数を数えて、行に何列あるかを特定できます。

words=$(echo "$a" | cut -d' ' -f8- | awk '{print NF}')
paste <(echo "$dups") <(echo "$words")
4       1
1       3
3       4
1       9

Question 4

最もシンプルなバージョンは

cat data.txt | awk '{counts[NF] += 1} END { for (row_count in counts) { printf "%d (%d)\n", counts[row_count], row_count; }'

NF行内のフィールド数を指定する変数を使用し、辞書内のそれに関連付けられた関連値を更新するだけです。次に、ストリームの最後で、辞書のすべてのキーを反復処理し、要求された形式で出力します。

Answer

最もシンプルなバージョンは

cat data.txt | awk '{counts[NF] += 1} END { for (row_count in counts) { printf "%d (%d)\n", counts[row_count], row_count; }'

NF行内のフィールド数を指定する変数を使用し、辞書内のそれに関連付けられた関連値を更新するだけです。次に、ストリームの最後で、辞書のすべてのキーを反復処理し、要求された形式で出力します。

テキストファイル内の行にわたる列数の頻度を印刷する

答え1

答え2

答え3

答え4

関連情報