Tengo un archivo CSV de la siguiente manera:
1st 2nd 3rd 4th
ID ... Res Res Res Res (other columns) ...
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper
RZ_AUTO_4, 1ffk, C2767, 0, C2682, 0, G2679, 0, A2681, 0, CC/GA Naked ribose-zipper
RZ_AUTO_5, 1ffk, G2574, 0, C2575, 0, G2798, 0, A2776, 0, GC/GA Single ribose-zipper
Lo que me gustaría hacer es extraer filas donde (el número de First_Residue (el tercer campo) y Second_Residue ($5) son consecutivos) Y (el número de Third_Residue ($7) y Fourth_Residue ($9) son consecutivos). Un ejemplo de salida sería así:
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper
Las líneas 4 y 5 se eliminarán ya que los números residuales no son consecutivos.
¿Cómo puedo hacer esto usando awk o sed?
Respuesta1
Si cada uno de los campos a comparar tiene un único carácter de prefijo no numérico ( C
o A
en su ejemplo), entonces debería poder extraer y comparar las subcadenas numéricas directamente en awk, por ejemplo
$ awk -F"[ \t,]+" 'substr($5,2)+0==substr($3,2)+1 && substr($9,2)+0==substr($7,2)+1' file.csv
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper
Respuesta2
Si puedes usar perl
:
$ perl -F, -anle '
map { s/\D//g } @F;
print if ++$F[2] == $F[4] and ++$F[6] == $F[8];
' file
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper
Respuesta3
Este script Bash hace lo que usted quiere pero no usa solo sed
y awk
. Estoy seguro de que si se dedicara más tiempo a desarrollar esto, se podría perfeccionar aún más, pero, a grandes rasgos, hace lo que usted desea.
$ more cmd.bash
#!/bin/bash
while read line; do
f1=$(echo "$line" | awk -F", " '{print $3}')
f2=$(echo "$line" | awk -F", " '{print $7}')
echo "$line" | grep "${f1}.*$(expr ${f1:2} + 1).*${f2}.*$(expr ${f2:2} + 1)"
done <file
Ejecución de ejemplo
$ ./cmd.bash
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper
Debilidades
Un área en la que es necesario mejorar aún más es en la selección de los partidos en la grep
línea. Esto puede dar lugar a falsos positivos en su forma actual. Esto se puede hacer mejor usando una herramienta como awk
o mejorando el patrón que grep
se utiliza para hacer coincidir las líneas.