awk: 最初の行の部分文字列に一致するタブ区切りの列を抽出します

Question 1

Awk の代わりに、から列名のカンマ区切りリストを作成し、それをのstrings.txtのリストとして使用してはどうでしょうか。namedcolcsvtool

$ csvtool -t TAB -u TAB namedcol "$(paste -sd, < strings.txt)" columns.txt
rs2438689   rs9877702046
0   0
1   2
0   2
... ...

または、csvcut/csvformatPython ベースのと同様にcsvkit:

$ csvcut -tc "$(paste -sd, < strings.txt)" columns.txt | csvformat -T
rs2438689   rs9877702046
0   0
1   2
0   2
... ...

Answer

Awk の代わりに、から列名のカンマ区切りリストを作成し、それをのstrings.txtのリストとして使用してはどうでしょうか。namedcolcsvtool

$ csvtool -t TAB -u TAB namedcol "$(paste -sd, < strings.txt)" columns.txt
rs2438689   rs9877702046
0   0
1   2
0   2
... ...

または、csvcut/csvformatPython ベースのと同様にcsvkit:

$ csvcut -tc "$(paste -sd, < strings.txt)" columns.txt | csvformat -T
rs2438689   rs9877702046
0   0
1   2
0   2
... ...

Question 2

とperl

$ perl -F'\t' -lane 'if(!$#ARGV){ $h{$_}=1 }
                     else{ @i = grep { $h{$F[$_]} == 1 } 0..$#F if !$c++;
                           print join "\t", @F[@i]}' strings.txt columns.txt
rs2438689   rs9877702046
0   0
1   2
0   2

if(!$#ARGV){ $h{$_}=1 }最初の入力ファイルでは、行の内容をキーとしてハッシュを作成します
@i = grep { $h{$F[$_]} == 1 } 0..$#F if !$c++2番目のファイルの最初の行では、ハッシュから一致するすべての列名のインデックスリストを作成します。
print join "\t", @F[@i]一致する列を印刷する

Answer

とperl

$ perl -F'\t' -lane 'if(!$#ARGV){ $h{$_}=1 }
                     else{ @i = grep { $h{$F[$_]} == 1 } 0..$#F if !$c++;
                           print join "\t", @F[@i]}' strings.txt columns.txt
rs2438689   rs9877702046
0   0
1   2
0   2

if(!$#ARGV){ $h{$_}=1 }最初の入力ファイルでは、行の内容をキーとしてハッシュを作成します
@i = grep { $h{$F[$_]} == 1 } 0..$#F if !$c++2番目のファイルの最初の行では、ハッシュから一致するすべての列名のインデックスリストを作成します。
print join "\t", @F[@i]一致する列を印刷する

Question 3

変更中前回の質問に対する私の解決策:

awk -F '\t' -f script.awk strings.txt columns.txt

どこscript.awkですか

BEGIN { OFS = FS }

FNR == NR {
    columns[$1] = 1
    next
}

FNR == 1 {
    for (i = 1; i <= NF; ++i)
        if ($i in columns)
            keep[i] = 1
}

{
    nf = split($0, fields, FS)
    $0 = ""
    j = 0

    for (i = 1; i <= nf; ++i)
        if (i in keep)
            $(++j) = fields[i]

    print
}

ここで、FNR == NRブロックはコマンドラインにリストされた最初のファイル（）から読み取る間だけ実行されますstrings.txt。列の名前をキーとして配列に入力しますcolumns。残りのコードは次のとおりです。多かれ少なかれ現在の列が（ブロック内に）保持したい列であるかどうかを確認する部分を除いて、古いソリューションから変更されていませんFNR == 1。

対処するコメント欄の質問:

最初の6列を常にコピーし、列ヘッダーを切り取るには_、

FNR == 1 {
    for (i = 1; i <= NF; ++i)
        if ($i in columns)
            keep[i] = 1
}

の中へ

FNR == 1 {
    for (i = 1; i <= NF; ++i) {
        sub("_.*", "", $i)
        if (i <= 6 || $i in columns)
            keep[i] = 1
    }
}

Answer