特定の数を超える場合は重複ファイルをソートする

Question 1

与えられた入力を使用して、どの文字が3回以上出現するかを検索する場合は、カウントを保持し、3回目に出現した行を出力します。

$ awk '++count[$0] == 3' file
a
b

出力を制限するには、それをパイプしますhead。これは明らかに出現回数でソートしません。これを行うには、GNU awk を使用します。

gawk -v limit=3 '
    { ++count[$0] }
    END {
        PROCINFO["sorted_in"] = "@val_num_desc"
        n = 0
        for (line in count) {
            if (n == limit) break
            print count[line], line
            ++n
        }
    }
' file

出力

6 a
3 b
2 d

参照https://www.gnu.org/software/gawk/manual/html_node/Controlling-Scanning.html

Answer

与えられた入力を使用して、どの文字が3回以上出現するかを検索する場合は、カウントを保持し、3回目に出現した行を出力します。

$ awk '++count[$0] == 3' file
a
b

出力を制限するには、それをパイプしますhead。これは明らかに出現回数でソートしません。これを行うには、GNU awk を使用します。

gawk -v limit=3 '
    { ++count[$0] }
    END {
        PROCINFO["sorted_in"] = "@val_num_desc"
        n = 0
        for (line in count) {
            if (n == limit) break
            print count[line], line
            ++n
        }
    }
' file

出力

6 a
3 b
2 d

参照https://www.gnu.org/software/gawk/manual/html_node/Controlling-Scanning.html

Question 2

元のパイプラインの開始を使用して、awkその結果をフィルタリングできます。

sort file.log | uniq -c | sort -rn | awk '$1 >= 10' | head -n 5

最後のはawk、10以上のカウントに対応する行のみを出力します。headとてもend は全体の結果を最大 5 行に制限します。

ただし、もう少し追加することもできますawk:

awk '{ c[$0]++ } END { for (w in c) if (c[w] >= 10) print c[w], w }' file.log |
sort -nr | head -n 5

これは、まずのカウントとカウント数の少ない行の除去を行い、次にとawkを使用した上位 5 つの結果を表示します。sorthead

カウントは、連想配列内の要素を増分することによって行われc、現在の入力行がキーとして使用されます。

ブロックEND( から最後の行を読み取った後にトリガーされますfile.log) は内のすべてのキーを反復処理しc、キーが 10 以上のカウントに対応する場合は、そのカウントを含む行とともにカウントが出力されます。

Answer