シーケンスの長さに基づいて fastq ファイルをサブセット化するために awk を使用する

Question

レコードとフィールドの区切り文字を使用すると、awk が改行とスペースを使用しないようにすることができます。代わりに、レコードの区切り文字として「\n@」を使用し、フィールドの区切り文字として「\n」を使用することができます。

$ awk 'BEGIN {RS="\n@";FS="\n"} {if (length($2) <= 25) {print "@"$0} }' fastq
@SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
CTGCTGCTCATGCTCAT
+SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
BDDDDD<<CC:C+AFFE
@SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
AGCGTGTGCCACCCTACGCCGGC
+SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
DD>DAA@AA@@?2C8AB)?@:DD

各行は異なるフィールドになるので、$2 で 2 行目の長さを確認できます。レコード区切り文字によって「@」が消えてしまうため、印刷時に「@」を再度追加する必要がありました。

Answer 1

レコードとフィールドの区切り文字を使用すると、awk が改行とスペースを使用しないようにすることができます。代わりに、レコードの区切り文字として「\n@」を使用し、フィールドの区切り文字として「\n」を使用することができます。

$ awk 'BEGIN {RS="\n@";FS="\n"} {if (length($2) <= 25) {print "@"$0} }' fastq
@SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
CTGCTGCTCATGCTCAT
+SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
BDDDDD<<CC:C+AFFE
@SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
AGCGTGTGCCACCCTACGCCGGC
+SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
DD>DAA@AA@@?2C8AB)?@:DD

各行は異なるフィールドになるので、$2 で 2 行目の長さを確認できます。レコード区切り文字によって「@」が消えてしまうため、印刷時に「@」を再度追加する必要がありました。

シーケンスの長さに基づいて fastq ファイルをサブセット化するために awk を使用する

答え1

関連情報