如果大於一定數量，則對文件中的重複項進行排序

Question 1

使用給定的輸入，如果您想查找哪些字元出現大於或等於三次：保留計數並在第三次出現時輸出該行

$ awk '++count[$0] == 3' file
a
b

透過管道將head其限制輸出。這顯然不會按出現次數排序。為此，請使用 GNU awk：

gawk -v limit=3 '
    { ++count[$0] }
    END {
        PROCINFO["sorted_in"] = "@val_num_desc"
        n = 0
        for (line in count) {
            if (n == limit) break
            print count[line], line
            ++n
        }
    }
' file

輸出

6 a
3 b
2 d

參考號https://www.gnu.org/software/gawk/manual/html_node/Controlling-Scanning.html

Answer

使用給定的輸入，如果您想查找哪些字元出現大於或等於三次：保留計數並在第三次出現時輸出該行

$ awk '++count[$0] == 3' file
a
b

透過管道將head其限制輸出。這顯然不會按出現次數排序。為此，請使用 GNU awk：

gawk -v limit=3 '
    { ++count[$0] }
    END {
        PROCINFO["sorted_in"] = "@val_num_desc"
        n = 0
        for (line in count) {
            if (n == limit) break
            print count[line], line
            ++n
        }
    }
' file

輸出

6 a
3 b
2 d

參考號https://www.gnu.org/software/gawk/manual/html_node/Controlling-Scanning.html

Question 2

您可以使用原始管道的開頭，然後awk過濾這些結果：

sort file.log | uniq -c | sort -rn | awk '$1 >= 10' | head -n 5

最後的只列印awk那些對應於大於或等於 10 的計數的行head。非常end 將整體結果限制為最多五行。

不過你可以多做一點awk：

awk '{ c[$0]++ } END { for (w in c) if (c[w] >= 10) print c[w], w }' file.log |
sort -nr | head -n 5

首先進行計數並清除低計數行，然後使用並awk給出前五個結果。sorthead

計數是透過遞增關聯數組中的元素來完成的c，其中當前輸入行用作鍵。

該END區塊（在讀取的最後一行後觸發file.log）迭代中的所有鍵c，如果該鍵對應的計數大於或等於 10，則該計數將與具有該計數的行一起列印。

Answer