동일한 ID를 가진 첫 번째 열에 대한 다른 열의 값 합계

동일한 ID를 가진 첫 번째 열에 대한 다른 열의 값 합계

입력 txt 파일은 다음과 같습니다(실제 txt 파일에는 더 많은 열이 있음).

target_id   length  eff_length  tot_counts  uniq_counts est_counts  eff_counts
mthl7   61  0   0   0   0   0
loqs    72  0   0   0   0   0
CG45085 58  0   0   0   0   0
CG18317 4978    1430.739479 91  0   30.333333   105.539363
CG18317 4978    1430.739479 91  0   30.333333   105.539363
CG18317 4978    1430.739479 91  0   30.333333   105.539363

열 1의 ID가 동일한 경우(예: CG18317) 나머지 열의 값을 더하고 싶습니다. 따라서 출력은 다음과 같습니다.

target_id   length  eff_length  tot_counts  uniq_counts est_counts  eff_counts
mthl7   61  0   0   0   0   0
loqs    72  0   0   0   0   0
CG45085 58  0   0   0   0   0
CG18317 14934   4292.218437 273 0   90.999999   316.618089

다음과 같은 명령을 사용하려고했습니다.

awk -F" "
'{a[$1]+=$4;b[$1]+=$5;c[$1]+=$6;d[$1]+=$7;e[$1]+=$8;f[$1]+=$9;g[$1]+=$10;h[$1]+=$11;i[$1]+=$12;j[$1]+=$14;}END{for (i in a) print i" "a[i]" "b[i]" "c[i]" "d[i]" "e[i]" "f[i]" "g[i]" "h[i]" "i[i]" "j[i]}' temp2.txt

오류 메시지는 다음과 같습니다.

awk: can't assign to i; it's an array name.
 input record number 7, file temp2.txt
 source line number 1

헤더 때문인가요? 첫 번째 행을 어떻게 우회해야 합니까?

여기에서 비슷한 질문에 대한 답변을 시도했지만 작동하지 않았습니다.

답변1

$ awk 'NR==1{print;next} {for (i=2;i<=NF;i++) {a[$1][i]+=$i}} END{ \
    for (j in a) {s=j; for (i=2;i<=NF;i++) {s=s" "a[j][i]}; print s}}' file
target_id   length  eff_length  tot_counts  uniq_counts est_counts  eff_counts
mthl7 61 0 0 0 0 0
loqs 72 0 0 0 0 0
CG18317 14934 4292.22 273 0 91 316.618
CG45085 58 0 0 0 0 0

줄을 동일한 순서로 유지하려면 코드가 조금 더 필요합니다.

$ awk 'NR==1{print;next} {if ($1 in seen); else b[c++]=$1; seen[$1]=1; \
    for (i=2;i<=NF;i++) {a[$1][i]+=$i}} END{for (j=0;j<c;j++) {s=b[j]; \
    for (i=2;i<=NF;i++){s=s" "a[b[j]][i]}; print s}}' file | column -t
target_id  length  eff_length  tot_counts  uniq_counts  est_counts  eff_counts
mthl7      61      0           0           0            0           0
loqs       72      0           0           0            0           0
CG45085    58      0           0           0            0           0
CG18317    14934   4292.22     273         0            91          316.618

column -t위에서는 정렬된 열을 얻기 위해 출력을 파이프로 연결했습니다 .

복사 및 붙여넣기에 적합한 형태의 명령

위의 명령은 더 쉽게 볼 수 있도록 여러 명령으로 분산되어 있습니다. 명령을 복사하여 붙여넣으려면 다음 버전을 대신 사용하세요.

awk 'NR==1{print;next} {for (i=2;i<=NF;i++) {a[$1][i]+=$i}} END{ for (j in a) {s=j; for (i=2;i<=NF;i++) {s=s" "a[j][i]}; print s}}' file

그리고:

awk 'NR==1{print;next} {if ($1 in seen); else b[c++]=$1; seen[$1]=1; for (i=2;i<=NF;i++) {a[$1][i]+=$i}} END{for (j=0;j<c;j++) {s=b[j]; for (i=2;i<=NF;i++){s=s" "a[b[j]][i]}; print s}}' file | column -t

GNU가 아닌awk

노력하다:

awk 'NR==1{print;next} {if ($1 in seen); else b[c++]=$1; seen[$1]=1; for (i=2;i<=NF;i++) {a[$1","i]+=$i}} END{for (j=0;j<c;j++) {s=b[j]; for (i=2;i<=NF;i++){s=s" "a[b[j]","i]}; print s}}' file | column -t

관련 정보