использование awk для подмножества fastq-файла на основе длины последовательности

Question

Вы можете использовать разделители записей и полей, чтобы запретить awk использовать новые строки и пробелы. Вместо этого вы можете использовать "\n@" для отображения разделения записей и просто "\n" для разделения полей.

$ awk 'BEGIN {RS="\n@";FS="\n"} {if (length($2) <= 25) {print "@"$0} }' fastq
@SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
CTGCTGCTCATGCTCAT
+SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
BDDDDD<<CC:C+AFFE
@SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
AGCGTGTGCCACCCTACGCCGGC
+SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
DD>DAA@AA@@?2C8AB)?@:DD

Каждая из строк будет отдельным полем, поэтому вы можете проверить длину второй строки с помощью $2. Мне пришлось добавить "@" обратно при печати, так как его съедает разделитель записей.

Answer 1

Вы можете использовать разделители записей и полей, чтобы запретить awk использовать новые строки и пробелы. Вместо этого вы можете использовать "\n@" для отображения разделения записей и просто "\n" для разделения полей.

$ awk 'BEGIN {RS="\n@";FS="\n"} {if (length($2) <= 25) {print "@"$0} }' fastq
@SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
CTGCTGCTCATGCTCAT
+SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
BDDDDD<<CC:C+AFFE
@SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
AGCGTGTGCCACCCTACGCCGGC
+SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
DD>DAA@AA@@?2C8AB)?@:DD

Каждая из строк будет отдельным полем, поэтому вы можете проверить длину второй строки с помощью $2. Мне пришлось добавить "@" обратно при печати, так как его съедает разделитель записей.

использование awk для подмножества fastq-файла на основе длины последовательности

решение1

Связанный контент