
このようなファイルがあります。これはSAMファイルと呼ばれます
@HD VN:1.0 SO:unsorted
@SQ SN:RNU2-1 LN:388
@SQ SN:RNU6-1100P LN:304
SRR959756.23 0 RNU2-1 56 0 6S32M12S * 0 0 CACAGCAATATCTGATACGTCCTCTATCCGAGGACAATTGGAATTCTCGG hhhhhhhhhhhhhhhhhhhhhhghhghhhhhhhhhhhhhhfhhhhhhghf AS:i:64 XS:i:64 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:32 YT:Z:UU
SRR959756.23 256 RNU2-2P 56 0 6S32M12S * 0 0 CACAGCAATATCTGATACGTCCTCTATCCGAGGACAATTGGAATTCTCGG * AS:i:64 XS:i:64 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:32 YT:Z:UU
SRR959756.23 256 RNU2-6P 55 0 6S32M12S * 0 0 CACAGCAATATCTGATACGTCCTCTATCCGAGGACAATTGGAATTCTCGG * AS:i:56 XS:i:64 XN:i:0 XM:i:4 XO:i:0 XG:i:0 NM:i:1 MD:Z:11T20 YT:Z:UU
XMである15列目でファイルをフィルタリングしたいので、これを書きました
awk '$15 ~ /^XM:i:0/ || $15 ~ /^XM:i:1/ || $15 ~ /^XM:i:2/ || $15 ~ /^XM:i:3/ {print $0}' file.txt
そうすることで、次のようなヘッダーが失われました。@(最初の 3 行)。出力でそのまま維持するにはどうすればよいですか。
出力は次のようになるはずです
@HD VN:1.0 SO:unsorted
@SQ SN:RNU2-1 LN:388
@SQ SN:RNU6-1100P LN:304
SRR959756.23 0 RNU2-1 56 0 6S32M12S * 0 0 CACAGCAATATCTGATACGTCCTCTATCCGAGGACAATTGGAATTCTCGG hhhhhhhhhhhhhhhhhhhhhhghhghhhhhhhhhhhhhhfhhhhhhghf AS:i:64 XS:i:64 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:32 YT:Z:UU
SRR959756.23 256 RNU2-2P 56 0 6S32M12S * 0 0 CACAGCAATATCTGATACGTCCTCTATCCGAGGACAATTGGAATTCTCGG * AS:i:64 XS:i:64 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:32 YT:Z:UU
また、ヘッダー行 (@ で始まる) は数百など、さらに多くなる可能性があります。私は最初の 3 行だけを使用しました。
答え1
これを試してみたらうまくいきました
awk '$0 ~ /^@/ || $15 ~ /^XM:i:0/ || $15 ~ /^XM:i:1/ || $15 ~ /^XM:i:2/ || $15 ~ /^XM:i:3/ {print $0}' file.txt