
我有一個矩陣,其中有不同樣本中基因的計數
Col1: GeneName
Col2: Length
Col3;Col4;Col5; Counts for genes in sampleA/sampleB/sampleC
Col6;Col7;Col8; Total counts in sampleA/sampleB/sampleC
這是一個範例矩陣。
A1BG 1758 53 4373 207 46005749 43849471 31554941
A1BG-AS1 2126 5 88 12 46005749 43849471 31554941
A1CF 9695 8882 3522 437 46005749 43849471 31554941
A2M 5399 15963 12325 7227 46005749 43849471 31554941
A2M-AS1 6660 50 33 36 46005749 43849471 31554941
我想劃分 counts_sampleA / (total_counts_sampleA*Length),依此類推其他樣本
貓在文件中 | awk 'BEGIN {OFS="\t"} { print $1,$2,$3/($6*$2),$4/($7*$2),$5/($8*$2) }'
這是預期的結果
A1BG 1758 6.55307e-10 5.67278e-08 3.73151e-09
A1BG-AS1 2126 5.11204e-11 9.43963e-10 1.78875e-10
A1CF 9695 1.99136e-08 8.28471e-09 1.42845e-09
A2M 5399 6.42672e-08 5.20606e-08 4.24207e-08
A2M-AS1 6660 1.63186e-10 1.12999e-10 1.71301e-10
工作正常,但當矩陣很大時效果不佳。如果有100個樣本,其中column3-colum102將有geneCountinEachSample,而Coulmn103-column202將有totalCountinEachSample,我該怎麼寫?
我想將它與 for 循環一起使用,因此當有更多樣本時,它可以處理任意數量的列?
cat inFile | awk 'BEGIN {OFS="\t"} { row=NF; samples=3; size=$samples+2; for ( i=3; i<=$size; i++); END print $i/$[$i+$samples] }'
關於如何進行這項工作的任何建議。謝謝 !
答案1
好吧,你幾乎已經得到答案了:
awk '
{cols=((NF/2) + 1)
for (i=1; i <= cols; i++) {
if (i >= 3) {
count_index= i + cols - 2
printf("%s\t", 1.0 * $i / ($count_index * $2))
} else {
printf("%s\t", $i)
}
}
printf("\n")
}' inFile
請注意,使用cat file | awk ...
不是最理想的,awk 直接將文件作為參數處理;即便如此,這樣做awk ... < infile
也比對貓的無用利用。
答案2
perl -F'\s+' -lane '$,="\t"; # OFS made a TAB
my($gN, $gL) = splice @F, 0, 2; # store gene name & length
print $gN, $gL, map { sprintf "%.5e", $F[$_] / ( $F[$_+@F/2] * $gL ) } 0 .. @F/2-1;
' gene_samples.file
FS
設定為一個或多個空白。ORS = RS = \n
@F
保存給定記錄的欄位。splice
從偏移量 0 開始刪除 2 個元素並減少陣列大小。- 根據 OP 規範,@F 中保留的內容是偶數元素。前半部是counts_for_each_sample,後半部是total_count_for_each_sample。
結果
A1BG 1758 6.55307e-10 5.67278e-08 3.73151e-09
A1BG-AS1 2126 5.11204e-11 9.43963e-10 1.78875e-10
A1CF 9695 1.99136e-08 8.28471e-09 1.42845e-09
A2M 5399 6.42672e-08 5.20606e-08 4.24207e-08
A2M-AS1 6660 1.63186e-10 1.12999e-10 1.71301e-10