入力 txt ファイルは次のようになります (実際の txt ファイルにはさらに多くの列があります)。
target_id length eff_length tot_counts uniq_counts est_counts eff_counts
mthl7 61 0 0 0 0 0
loqs 72 0 0 0 0 0
CG45085 58 0 0 0 0 0
CG18317 4978 1430.739479 91 0 30.333333 105.539363
CG18317 4978 1430.739479 91 0 30.333333 105.539363
CG18317 4978 1430.739479 91 0 30.333333 105.539363
列 1 が同じ ID (例: CG18317) を持つ場合、残りの列の値を合計します。出力は次のようになります。
target_id length eff_length tot_counts uniq_counts est_counts eff_counts
mthl7 61 0 0 0 0 0
loqs 72 0 0 0 0 0
CG45085 58 0 0 0 0 0
CG18317 14934 4292.218437 273 0 90.999999 316.618089
次のようなコマンドを使用しようとしました:
awk -F" "
'{a[$1]+=$4;b[$1]+=$5;c[$1]+=$6;d[$1]+=$7;e[$1]+=$8;f[$1]+=$9;g[$1]+=$10;h[$1]+=$11;i[$1]+=$12;j[$1]+=$14;}END{for (i in a) print i" "a[i]" "b[i]" "c[i]" "d[i]" "e[i]" "f[i]" "g[i]" "h[i]" "i[i]" "j[i]}' temp2.txt
エラーメッセージは次のとおりです:
awk: can't assign to i; it's an array name.
input record number 7, file temp2.txt
source line number 1
これはヘッダーが原因でしょうか? 1 行目をバイパスするにはどうすればよいでしょうか?
ここで見つかった同様の質問に対する回答を試してみましたが、やはりうまくいきませんでした。
答え1
$ awk 'NR==1{print;next} {for (i=2;i<=NF;i++) {a[$1][i]+=$i}} END{ \
for (j in a) {s=j; for (i=2;i<=NF;i++) {s=s" "a[j][i]}; print s}}' file
target_id length eff_length tot_counts uniq_counts est_counts eff_counts
mthl7 61 0 0 0 0 0
loqs 72 0 0 0 0 0
CG18317 14934 4292.22 273 0 91 316.618
CG45085 58 0 0 0 0 0
行を同じ順序に保ちたい場合は、もう少しコードが必要です。
$ awk 'NR==1{print;next} {if ($1 in seen); else b[c++]=$1; seen[$1]=1; \
for (i=2;i<=NF;i++) {a[$1][i]+=$i}} END{for (j=0;j<c;j++) {s=b[j]; \
for (i=2;i<=NF;i++){s=s" "a[b[j]][i]}; print s}}' file | column -t
target_id length eff_length tot_counts uniq_counts est_counts eff_counts
mthl7 61 0 0 0 0 0
loqs 72 0 0 0 0 0
CG45085 58 0 0 0 0 0
CG18317 14934 4292.22 273 0 91 316.618
上記では、整列した列を取得するために出力をパイプしましたcolumn -t
。
コピー&ペーストに適した形式のコマンド
上記のコマンドは、見やすくするために複数に分かれています。コマンドをコピーして貼り付ける場合は、代わりに次のバージョンを使用してください。
awk 'NR==1{print;next} {for (i=2;i<=NF;i++) {a[$1][i]+=$i}} END{ for (j in a) {s=j; for (i=2;i<=NF;i++) {s=s" "a[j][i]}; print s}}' file
そして:
awk 'NR==1{print;next} {if ($1 in seen); else b[c++]=$1; seen[$1]=1; for (i=2;i<=NF;i++) {a[$1][i]+=$i}} END{for (j=0;j<c;j++) {s=b[j]; for (i=2;i<=NF;i++){s=s" "a[b[j]][i]}; print s}}' file | column -t
非GNUawk
試す:
awk 'NR==1{print;next} {if ($1 in seen); else b[c++]=$1; seen[$1]=1; for (i=2;i<=NF;i++) {a[$1","i]+=$i}} END{for (j=0;j<c;j++) {s=b[j]; for (i=2;i<=NF;i++){s=s" "a[b[j]","i]}; print s}}' file | column -t