
我有這樣的文件。它稱為 sam 文件
@HD VN:1.0 SO:unsorted
@SQ SN:RNU2-1 LN:388
@SQ SN:RNU6-1100P LN:304
SRR959756.23 0 RNU2-1 56 0 6S32M12S * 0 0 CACAGCAATATCTGATACGTCCTCTATCCGAGGACAATTGGAATTCTCGG hhhhhhhhhhhhhhhhhhhhhhghhghhhhhhhhhhhhhhfhhhhhhghf AS:i:64 XS:i:64 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:32 YT:Z:UU
SRR959756.23 256 RNU2-2P 56 0 6S32M12S * 0 0 CACAGCAATATCTGATACGTCCTCTATCCGAGGACAATTGGAATTCTCGG * AS:i:64 XS:i:64 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:32 YT:Z:UU
SRR959756.23 256 RNU2-6P 55 0 6S32M12S * 0 0 CACAGCAATATCTGATACGTCCTCTATCCGAGGACAATTGGAATTCTCGG * AS:i:56 XS:i:64 XN:i:0 XM:i:4 XO:i:0 XG:i:0 NM:i:1 MD:Z:11T20 YT:Z:UU
我想過濾第 15 列的文件,即 XM,所以我寫了這個
awk '$15 ~ /^XM:i:0/ || $15 ~ /^XM:i:1/ || $15 ~ /^XM:i:2/ || $15 ~ /^XM:i:3/ {print $0}' file.txt
這樣做時,我丟失了以@(前三行)。我怎樣才能保持它們在輸出中的原樣。
輸出應該是這樣的
@HD VN:1.0 SO:unsorted
@SQ SN:RNU2-1 LN:388
@SQ SN:RNU6-1100P LN:304
SRR959756.23 0 RNU2-1 56 0 6S32M12S * 0 0 CACAGCAATATCTGATACGTCCTCTATCCGAGGACAATTGGAATTCTCGG hhhhhhhhhhhhhhhhhhhhhhghhghhhhhhhhhhhhhhfhhhhhhghf AS:i:64 XS:i:64 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:32 YT:Z:UU
SRR959756.23 256 RNU2-2P 56 0 6S32M12S * 0 0 CACAGCAATATCTGATACGTCCTCTATCCGAGGACAATTGGAATTCTCGG * AS:i:64 XS:i:64 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:32 YT:Z:UU
標題行(以 @ 開頭)也可以有更多,例如數百個。我只使用了前 3 行。
答案1
我嘗試過這個並且有效
awk '$0 ~ /^@/ || $15 ~ /^XM:i:0/ || $15 ~ /^XM:i:1/ || $15 ~ /^XM:i:2/ || $15 ~ /^XM:i:3/ {print $0}' file.txt