Filtrar un archivo .CSV según números consecutivos en una línea

Question 1

Si cada uno de los campos a comparar tiene un único carácter de prefijo no numérico ( Co Aen su ejemplo), entonces debería poder extraer y comparar las subcadenas numéricas directamente en awk, por ejemplo

$ awk -F"[ \t,]+" 'substr($5,2)+0==substr($3,2)+1 && substr($9,2)+0==substr($7,2)+1' file.csv
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper 
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper 
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper

Answer

Si cada uno de los campos a comparar tiene un único carácter de prefijo no numérico ( Co Aen su ejemplo), entonces debería poder extraer y comparar las subcadenas numéricas directamente en awk, por ejemplo

$ awk -F"[ \t,]+" 'substr($5,2)+0==substr($3,2)+1 && substr($9,2)+0==substr($7,2)+1' file.csv
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper 
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper 
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper

Question 2

Si puedes usar perl:

$ perl -F, -anle '
    map { s/\D//g } @F;
    print if ++$F[2] == $F[4] and ++$F[6] == $F[8];
' file
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper

Answer

Si puedes usar perl:

$ perl -F, -anle '
    map { s/\D//g } @F;
    print if ++$F[2] == $F[4] and ++$F[6] == $F[8];
' file
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper

Question 3

Este script Bash hace lo que usted quiere pero no usa solo sedy awk. Estoy seguro de que si se dedicara más tiempo a desarrollar esto, se podría perfeccionar aún más, pero, a grandes rasgos, hace lo que usted desea.

$ more cmd.bash 
#!/bin/bash

while read line; do 
    f1=$(echo "$line" | awk -F", " '{print $3}')
    f2=$(echo "$line" | awk -F", " '{print $7}')
    echo "$line" | grep  "${f1}.*$(expr ${f1:2} + 1).*${f2}.*$(expr ${f2:2} + 1)"
done <file

Ejecución de ejemplo

$ ./cmd.bash 
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper

Debilidades

Un área en la que es necesario mejorar aún más es en la selección de los partidos en la greplínea. Esto puede dar lugar a falsos positivos en su forma actual. Esto se puede hacer mejor usando una herramienta como awko mejorando el patrón que grepse utiliza para hacer coincidir las líneas.

Answer

Este script Bash hace lo que usted quiere pero no usa solo sedy awk. Estoy seguro de que si se dedicara más tiempo a desarrollar esto, se podría perfeccionar aún más, pero, a grandes rasgos, hace lo que usted desea.

$ more cmd.bash 
#!/bin/bash

while read line; do 
    f1=$(echo "$line" | awk -F", " '{print $3}')
    f2=$(echo "$line" | awk -F", " '{print $7}')
    echo "$line" | grep  "${f1}.*$(expr ${f1:2} + 1).*${f2}.*$(expr ${f2:2} + 1)"
done <file

Ejecución de ejemplo

$ ./cmd.bash 
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper

Debilidades

Un área en la que es necesario mejorar aún más es en la selección de los partidos en la greplínea. Esto puede dar lugar a falsos positivos en su forma actual. Esto se puede hacer mejor usando una herramienta como awko mejorando el patrón que grepse utiliza para hacer coincidir las líneas.

Filtrar un archivo .CSV según números consecutivos en una línea

Respuesta1

Respuesta2

Respuesta3

Ejecución de ejemplo

Debilidades

información relacionada