使用 awk 根據序列長度對 fastq 檔案進行子集化

Question

您可以使用記錄和欄位分隔符號來阻止 awk 使用換行符號和空格。相反，您可以使用“\n@”來顯示記錄分隔，並使用普通的“\n”來分隔欄位。

$ awk 'BEGIN {RS="\n@";FS="\n"} {if (length($2) <= 25) {print "@"$0} }' fastq
@SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
CTGCTGCTCATGCTCAT
+SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
BDDDDD<<CC:C+AFFE
@SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
AGCGTGTGCCACCCTACGCCGGC
+SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
DD>DAA@AA@@?2C8AB)?@:DD

每行都是不同的字段，因此您可以使用 $2 檢查第二行的長度。我必須在列印時添加“@”，因為它會被記錄分隔符號吃掉。

Answer 1

您可以使用記錄和欄位分隔符號來阻止 awk 使用換行符號和空格。相反，您可以使用“\n@”來顯示記錄分隔，並使用普通的“\n”來分隔欄位。

$ awk 'BEGIN {RS="\n@";FS="\n"} {if (length($2) <= 25) {print "@"$0} }' fastq
@SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
CTGCTGCTCATGCTCAT
+SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
BDDDDD<<CC:C+AFFE
@SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
AGCGTGTGCCACCCTACGCCGGC
+SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
DD>DAA@AA@@?2C8AB)?@:DD

每行都是不同的字段，因此您可以使用 $2 檢查第二行的長度。我必須在列印時添加“@”，因為它會被記錄分隔符號吃掉。

使用 awk 根據序列長度對 fastq 檔案進行子集化

答案1

相關內容