awk：提取與第一行中的子字串相符的製表符分隔列

Question 1

取代 Awk，如何從中建立一個以逗號分隔的列名列表，並將其用作sstrings.txt的列表：namedcolcsvtool

$ csvtool -t TAB -u TAB namedcol "$(paste -sd, < strings.txt)" columns.txt
rs2438689   rs9877702046
0   0
1   2
0   2
... ...

或與csvcut/csvformat基於 Python 的類似csvkit：

$ csvcut -tc "$(paste -sd, < strings.txt)" columns.txt | csvformat -T
rs2438689   rs9877702046
0   0
1   2
0   2
... ...

Answer

取代 Awk，如何從中建立一個以逗號分隔的列名列表，並將其用作sstrings.txt的列表：namedcolcsvtool

$ csvtool -t TAB -u TAB namedcol "$(paste -sd, < strings.txt)" columns.txt
rs2438689   rs9877702046
0   0
1   2
0   2
... ...

或與csvcut/csvformat基於 Python 的類似csvkit：

$ csvcut -tc "$(paste -sd, < strings.txt)" columns.txt | csvformat -T
rs2438689   rs9877702046
0   0
1   2
0   2
... ...

Question 2

和perl

$ perl -F'\t' -lane 'if(!$#ARGV){ $h{$_}=1 }
                     else{ @i = grep { $h{$F[$_]} == 1 } 0..$#F if !$c++;
                           print join "\t", @F[@i]}' strings.txt columns.txt
rs2438689   rs9877702046
0   0
1   2
0   2

if(!$#ARGV){ $h{$_}=1 }對於第一個輸入文件，建立一個以行內容作為鍵的雜湊值
@i = grep { $h{$F[$_]} == 1 } 0..$#F if !$c++對於第二個檔案的第一行，從雜湊中建立所有符合列名稱的索引列表
print join "\t", @F[@i]列印匹配的列

Answer

和perl

$ perl -F'\t' -lane 'if(!$#ARGV){ $h{$_}=1 }
                     else{ @i = grep { $h{$F[$_]} == 1 } 0..$#F if !$c++;
                           print join "\t", @F[@i]}' strings.txt columns.txt
rs2438689   rs9877702046
0   0
1   2
0   2

if(!$#ARGV){ $h{$_}=1 }對於第一個輸入文件，建立一個以行內容作為鍵的雜湊值
@i = grep { $h{$F[$_]} == 1 } 0..$#F if !$c++對於第二個檔案的第一行，從雜湊中建立所有符合列名稱的索引列表
print join "\t", @F[@i]列印匹配的列

Question 3

修改我對你之前問題的解決方案:

awk -F '\t' -f script.awk strings.txt columns.txt

script.awk哪裡

BEGIN { OFS = FS }

FNR == NR {
    columns[$1] = 1
    next
}

FNR == 1 {
    for (i = 1; i <= NF; ++i)
        if ($i in columns)
            keep[i] = 1
}

{
    nf = split($0, fields, FS)
    $0 = ""
    j = 0

    for (i = 1; i <= nf; ++i)
        if (i in keep)
            $(++j) = fields[i]

    print
}

在這裡，該FNR == NR區塊只會在讀取命令列 ( strings.txt) 上列出的第一個檔案時執行。它將使用columns作為列名稱的鍵填充數組。其餘的代碼是或多或少與舊解決方案相同，除了我們檢查當前列是否是我們想要保留的列（在FNR == 1區塊中）之外。

解決評論中的問題:

若要始終複製前六列並剪下處的列標題_，請變更

FNR == 1 {
    for (i = 1; i <= NF; ++i)
        if ($i in columns)
            keep[i] = 1
}

進入

FNR == 1 {
    for (i = 1; i <= NF; ++i) {
        sub("_.*", "", $i)
        if (i <= 6 || $i in columns)
            keep[i] = 1
    }
}

Answer