Filtern einer CSV-Datei basierend auf aufeinanderfolgenden Zahlen in einer Zeile

Question 1

Wenn jedes der zu vergleichenden Felder ein einzelnes nicht numerisches Präfixzeichen hat ( Coder Ain Ihrem Beispiel), dann sollten Sie in der Lage sein, die numerischen Teilzeichenfolgen direkt in awk zu extrahieren und zu vergleichen, z. B.

$ awk -F"[ \t,]+" 'substr($5,2)+0==substr($3,2)+1 && substr($9,2)+0==substr($7,2)+1' file.csv
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper 
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper 
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper

Answer

Wenn jedes der zu vergleichenden Felder ein einzelnes nicht numerisches Präfixzeichen hat ( Coder Ain Ihrem Beispiel), dann sollten Sie in der Lage sein, die numerischen Teilzeichenfolgen direkt in awk zu extrahieren und zu vergleichen, z. B.

$ awk -F"[ \t,]+" 'substr($5,2)+0==substr($3,2)+1 && substr($9,2)+0==substr($7,2)+1' file.csv
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper 
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper 
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper

Question 2

Wenn Sie Folgendes verwenden können perl:

$ perl -F, -anle '
    map { s/\D//g } @F;
    print if ++$F[2] == $F[4] and ++$F[6] == $F[8];
' file
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper

Answer

Wenn Sie Folgendes verwenden können perl:

$ perl -F, -anle '
    map { s/\D//g } @F;
    print if ++$F[2] == $F[4] and ++$F[6] == $F[8];
' file
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper

Question 3

Dieses Bash-Skript macht, was Sie wollen, verwendet aber nicht nur sedund awk. Ich bin sicher, wenn mehr Zeit in die Entwicklung investiert würde, könnte es noch weiter verfeinert werden, aber es macht im Großen und Ganzen, was Sie wollen.

$ more cmd.bash 
#!/bin/bash

while read line; do 
    f1=$(echo "$line" | awk -F", " '{print $3}')
    f2=$(echo "$line" | awk -F", " '{print $7}')
    echo "$line" | grep  "${f1}.*$(expr ${f1:2} + 1).*${f2}.*$(expr ${f2:2} + 1)"
done <file

Beispielausführung

$ ./cmd.bash 
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper

Schwächen

Ein Bereich, in dem es noch weiter verbessert werden muss, ist die Auswahl der Übereinstimmungen in der grepZeile. Dies kann in der aktuellen Form zu Fehlalarmen führen. Dies kann mit einem Tool wie awkoder durch Verbesserung des Musters, das grepzum Abgleichen der Zeilen verwendet wird, besser erreicht werden.

Answer

Dieses Bash-Skript macht, was Sie wollen, verwendet aber nicht nur sedund awk. Ich bin sicher, wenn mehr Zeit in die Entwicklung investiert würde, könnte es noch weiter verfeinert werden, aber es macht im Großen und Ganzen, was Sie wollen.

$ more cmd.bash 
#!/bin/bash

while read line; do 
    f1=$(echo "$line" | awk -F", " '{print $3}')
    f2=$(echo "$line" | awk -F", " '{print $7}')
    echo "$line" | grep  "${f1}.*$(expr ${f1:2} + 1).*${f2}.*$(expr ${f2:2} + 1)"
done <file

Beispielausführung

$ ./cmd.bash 
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper

Schwächen

Ein Bereich, in dem es noch weiter verbessert werden muss, ist die Auswahl der Übereinstimmungen in der grepZeile. Dies kann in der aktuellen Form zu Fehlalarmen führen. Dies kann mit einem Tool wie awkoder durch Verbesserung des Musters, das grepzum Abgleichen der Zeilen verwendet wird, besser erreicht werden.

Filtern einer CSV-Datei basierend auf aufeinanderfolgenden Zahlen in einer Zeile

Antwort1

Antwort2

Antwort3

Beispielausführung

Schwächen

verwandte Informationen