計算具有特定列數的行數

計算具有特定列數的行數

我有幾個包含以下內容的文件:

GGHTERR_01218   GGHTERR_02418   GGHTERR_01991
GGHTERR_02211   GGHTERR_02297   GGHTERR_02379
GGHTERR_02294   GGHTERR_02455   GGHTERR_02374
GGHTERR_00532   GGHTERR_00534
GGHTERR_00533   GGHTERR_00535
GGHTERR_00776   GGHTERR_00779
GGHTERR_01220   GGHTERR_01620
GGHTERR_01760   GGHTERR_01761
GGHTERR_01774   GGHTERR_02404
GGHTERR_01889   GGHTERR_01890
GGHTERR_02081   GGHTERR_02287
GGHTERR_02152   GGHTERR_02153
GGHTERR_02260   GGHTERR_02321
GGHTERR_02295   GGHTERR_02375
GGHTERR_02419   GGHTERR_02437
GGHTERR_02420   GGHTERR_02438
GGHTERR_02430   GGHTERR_02448
GGHTERR_00001
GGHTERR_00002
GGHTERR_00003
GGHTERR_00004
GGHTERR_00005
GGHTERR_00006
GGHTERR_00007

我想知道是否有簡單的方法來計算具有 3 列、2 列和 1 列的行數。

所以輸出應該是這樣的:

3 columns: 3
2 columns: 14
1 colums: 7

答案1

awk 非常適合這個。它將在空白處分割行(預設;使用選項變更-F),並且內部變數NF(字段數)具有每行的字段數。因此,只需瀏覽該文件,保存NF每一行:

awk '{ 
        nums[NF]++
     }
     END{
        for(num in nums){
            printf "%d columns: %d\n", num, nums[num]
        }
     }' file

上面的程式碼只是將字段數 ( NF) 儲存在關聯數組中nums,該數組的鍵是字段數,值是在檔案中找到列數的次數。最後,我們只需遍歷數組並列印即可。在您的範例上運行上述結果將導致:

$ awk '{ nums[NF]++}END{for(num in nums){printf "%d columns: %d\n", num, nums[num]}}' file
1 columns: 7
2 columns: 14
3 columns: 3

這種方法的一個(小)缺點是您需要在記憶體中為文件中的每一行保留一個條目。這不會是一個問題,除非你的文件絕對巨大或你的可用內存非常少,但如果是這樣,你可以通過打印出每行的字段數然後計數來解決這個問題:

$ awk '{ print NF}' file | sort | uniq -c
      7 1
     14 2
      3 3

或者,要獲得相同的輸出:

$ awk '{ print NF}' file | sort | uniq -c | while read num fields; do printf "%d columns: %d\n" "$num" "$fields"; done
7 columns: 1
14 columns: 2
3 columns: 3

答案2

一個非awk解決方案,可能有點麻煩:

$ a=$(grep '^[GHTER_0-9]\+[[:space:]]\+[GHTER_0-9]\+[[:space:]]\+[GHTER_0-9]\+$' file | wc -l)
$ b=$(grep '^[GHTER_0-9]\+[[:space:]]\+[GHTER_0-9]\+$' file | wc -l)
$ c=$(grep '^[GHTER_0-9]\+$' file | wc -l)
$ printf "3 columns %s\n2 columns %s\n1 column %s\n" $a $b $c
3 columns 3
2 columns 14
1 columns 7

相關內容