usando awk para subconjuntos de archivos fastq según la longitud de la secuencia

Question

Puede utilizar separadores de registros y campos para evitar que awk utilice nuevas líneas y espacios. En su lugar, puede utilizar "\n@" para mostrar la separación de registros y un "\n" simple para separar los campos.

$ awk 'BEGIN {RS="\n@";FS="\n"} {if (length($2) <= 25) {print "@"$0} }' fastq
@SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
CTGCTGCTCATGCTCAT
+SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
BDDDDD<<CC:C+AFFE
@SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
AGCGTGTGCCACCCTACGCCGGC
+SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
DD>DAA@AA@@?2C8AB)?@:DD

Cada una de las líneas será un campo diferente, por lo que puedes verificar la longitud de la segunda línea con $2. Tuve que volver a agregar la "@" al imprimir, ya que el separador de registros la come.

Answer 1

Puede utilizar separadores de registros y campos para evitar que awk utilice nuevas líneas y espacios. En su lugar, puede utilizar "\n@" para mostrar la separación de registros y un "\n" simple para separar los campos.

$ awk 'BEGIN {RS="\n@";FS="\n"} {if (length($2) <= 25) {print "@"$0} }' fastq
@SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
CTGCTGCTCATGCTCAT
+SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
BDDDDD<<CC:C+AFFE
@SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
AGCGTGTGCCACCCTACGCCGGC
+SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
DD>DAA@AA@@?2C8AB)?@:DD

Cada una de las líneas será un campo diferente, por lo que puedes verificar la longitud de la segunda línea con $2. Tuve que volver a agregar la "@" al imprimir, ya que el separador de registros la come.

usando awk para subconjuntos de archivos fastq según la longitud de la secuencia

Respuesta1

información relacionada