나는 다음 형식으로 다중 열 데이터 파일 분석을 다루고 있습니다(여기에는 10줄의 예가 있지만 실제 로그에는 150줄이 포함됩니다!).
ID(Prot), ID(lig), ID(cluster), dG(rescored), dG(before), POP(before)
9000, lig662, 1, 0.421573, -7.8400, 153
10V2, lig662, 1, 0.42692, -8.0300, 149
3000, lig158, 1, 0.427342, -8.1900, 147
3000, lig158, 1, 0.427342, -8.1900, 147
10V2, lig342, 1, 0.432943, -9.4200, 137
10V1, lig807, 1, 0.434338, -8.0300, 147
10V2, lig369, 1, 0.440377, -7.3200, 156
10V1, lig342, 1, 0.441205, -9.4200, 135
10V1, lig369, 1, 0.465029, -7.3600, 148
10V1, lig158, 1, 0.504513, -7.4800, 135
9000
이 데이터에서 첫 번째 열(예: , 10V1
또는 3000
)과 두 번째 열(예: ligXXX) 의 인덱스에 집중해야 합니다 . 특히 인쇄해야 해요상위 3개두 열의 인덱스와 CSV의 모든 줄에서 해당 항목의 발생 횟수(따라서 두 열의 가장 일반적인 인덱스를 나타냄):
TOP PROT; TOP LIG
10V1 (number of cases:4), lig 158 (number of cases: 3)
10V2 (number of cases:3), lig 662 (number of cases: 2)
3000 (number of cases: 2), lig 369 (number of cases: 2)
AWK는 정렬될 수 있는 선택된 열의 발생 횟수를 계산하기 위해 직접 적용될 수 있습니다.
awk '{print $1}' file.csv | sort | uniq -c
열과 발생별 순위에 대해 이 아이디어를 개발해야 합니다.
답변1
GNU awk 사용
gawk -F',[[:blank:]]+' -v N=3 '
{
count["prot"][$1]++
count["lig"][$2]++
}
function show(thing, n, id) {
print "TOP " toupper(thing)
n = N
for (id in count[thing]) {
printf "%s (number of cases: %d)\n", id, count[thing][id]
if (--n == 0) break
}
}
END {
PROCINFO["sorted_in"] = "@val_num_desc"
show("prot")
show("lig")
}
' file.csv | pr -2Ts$'\t' | sed 's/\t/, /'
TOP PROT, TOP LIG
10V1 (number of cases: 4), lig158 (number of cases: 3)
10V2 (number of cases: 3), lig662 (number of cases: 2)
3000 (number of cases: 2), lig369 (number of cases: 2)
답변2
배열 배열 및 sorted_in에 GNU awk 사용:
$ cat tst.awk
BEGIN { FS=", *"; OFS=", " }
NR > 1 {
cnts[1][$1]++
cnts[2][$2]++
}
END {
numRows = 3
numCols = 2
PROCINFO["sorted_in"] = "@val_num_desc"
for (colNr=1; colNr<=numCols; colNr++) {
rowNr = 0
for (key in cnts[colNr]) {
vals[++rowNr][colNr] = sprintf("%s (number of cases: %d)", key, cnts[colNr][key])
}
}
print "TOP PROT", "TOP LIG"
for (rowNr=1; rowNr<=numRows; rowNr++) {
for (colNr=1; colNr<=numCols; colNr++) {
printf "%s%s", vals[rowNr][colNr], (colNr<numCols ? OFS : ORS)
}
}
}
$ awk -f tst.awk file
TOP PROT, TOP LIG
10V1 (number of cases: 4), lig158 (number of cases: 3)
10V2 (number of cases: 3), lig662 (number of cases: 2)
3000 (number of cases: 2), lig369 (number of cases: 2)