Verwenden von awk zum Unterteilen von Fastq-Dateien basierend auf der Sequenzlänge

Question

Sie können Datensatz- und Feldtrennzeichen verwenden, um awk daran zu hindern, Zeilenumbrüche und Leerzeichen zu verwenden. Stattdessen können Sie „\n@“ verwenden, um die Datensatztrennung anzuzeigen, und ein einfaches „\n“, um die Felder zu trennen.

$ awk 'BEGIN {RS="\n@";FS="\n"} {if (length($2) <= 25) {print "@"$0} }' fastq
@SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
CTGCTGCTCATGCTCAT
+SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
BDDDDD<<CC:C+AFFE
@SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
AGCGTGTGCCACCCTACGCCGGC
+SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
DD>DAA@AA@@?2C8AB)?@:DD

Jede Zeile ist ein anderes Feld, daher können Sie die Länge der zweiten Zeile mit $2 überprüfen. Ich musste das „@“ beim Drucken wieder hinzufügen, da es vom Datensatztrennzeichen verschluckt wird.

Answer 1

Sie können Datensatz- und Feldtrennzeichen verwenden, um awk daran zu hindern, Zeilenumbrüche und Leerzeichen zu verwenden. Stattdessen können Sie „\n@“ verwenden, um die Datensatztrennung anzuzeigen, und ein einfaches „\n“, um die Felder zu trennen.

$ awk 'BEGIN {RS="\n@";FS="\n"} {if (length($2) <= 25) {print "@"$0} }' fastq
@SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
CTGCTGCTCATGCTCAT
+SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
BDDDDD<<CC:C+AFFE
@SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
AGCGTGTGCCACCCTACGCCGGC
+SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
DD>DAA@AA@@?2C8AB)?@:DD

Jede Zeile ist ein anderes Feld, daher können Sie die Länge der zweiten Zeile mit $2 überprüfen. Ich musste das „@“ beim Drucken wieder hinzufügen, da es vom Datensatztrennzeichen verschluckt wird.

Verwenden von awk zum Unterteilen von Fastq-Dateien basierend auf der Sequenzlänge

Antwort1

verwandte Informationen