usando awk para subconjunto do arquivo fastq com base no comprimento da sequência

Question

Você pode usar separadores de registros e campos para impedir que o awk use novas linhas e espaços. Em vez disso, você pode usar "\n@" para mostrar a separação de registros e um "\n" simples para separar os campos.

$ awk 'BEGIN {RS="\n@";FS="\n"} {if (length($2) <= 25) {print "@"$0} }' fastq
@SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
CTGCTGCTCATGCTCAT
+SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
BDDDDD<<CC:C+AFFE
@SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
AGCGTGTGCCACCCTACGCCGGC
+SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
DD>DAA@AA@@?2C8AB)?@:DD

Cada uma das linhas será um campo diferente, então você pode verificar o comprimento da segunda linha com $2. Tive que adicionar o "@" novamente durante a impressão, pois ele é consumido pelo separador de registros.

Answer 1

Você pode usar separadores de registros e campos para impedir que o awk use novas linhas e espaços. Em vez disso, você pode usar "\n@" para mostrar a separação de registros e um "\n" simples para separar os campos.

$ awk 'BEGIN {RS="\n@";FS="\n"} {if (length($2) <= 25) {print "@"$0} }' fastq
@SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
CTGCTGCTCATGCTCAT
+SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
BDDDDD<<CC:C+AFFE
@SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
AGCGTGTGCCACCCTACGCCGGC
+SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
DD>DAA@AA@@?2C8AB)?@:DD

Cada uma das linhas será um campo diferente, então você pode verificar o comprimento da segunda linha com $2. Tive que adicionar o "@" novamente durante a impressão, pois ele é consumido pelo separador de registros.

usando awk para subconjunto do arquivo fastq com base no comprimento da sequência

Responder1

informação relacionada