Фильтрация файла .CSV на основе последовательных чисел в строке

Question 1

Если каждое из сравниваемых полей имеет один нечисловой префиксный символ ( Cили Aв вашем примере), то вы должны иметь возможность извлекать и сравнивать числовые подстроки непосредственно в awk, например

$ awk -F"[ \t,]+" 'substr($5,2)+0==substr($3,2)+1 && substr($9,2)+0==substr($7,2)+1' file.csv
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper 
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper 
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper

Answer

Если каждое из сравниваемых полей имеет один нечисловой префиксный символ ( Cили Aв вашем примере), то вы должны иметь возможность извлекать и сравнивать числовые подстроки непосредственно в awk, например

$ awk -F"[ \t,]+" 'substr($5,2)+0==substr($3,2)+1 && substr($9,2)+0==substr($7,2)+1' file.csv
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper 
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper 
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper

Question 2

Если вы можете использовать perl:

$ perl -F, -anle '
    map { s/\D//g } @F;
    print if ++$F[2] == $F[4] and ++$F[6] == $F[8];
' file
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper

Answer

Если вы можете использовать perl:

$ perl -F, -anle '
    map { s/\D//g } @F;
    print if ++$F[2] == $F[4] and ++$F[6] == $F[8];
' file
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper

Question 3

Этот скрипт Bash делает то, что вам нужно, но не использует только sedи awk. Я уверен, что если бы на его разработку было потрачено больше времени, его можно было бы усовершенствовать, но он, в общем-то, делает то, что вам нужно.

$ more cmd.bash 
#!/bin/bash

while read line; do 
    f1=$(echo "$line" | awk -F", " '{print $3}')
    f2=$(echo "$line" | awk -F", " '{print $7}')
    echo "$line" | grep  "${f1}.*$(expr ${f1:2} + 1).*${f2}.*$(expr ${f2:2} + 1)"
done <file

Пример запуска

$ ./cmd.bash 
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper

Недостатки

Одной из областей, где необходимо дальнейшее улучшение, является выбор совпадений в grepстроке. Это может привести к ложным срабатываниям в его текущей форме. Это можно сделать лучше, используя такой инструмент, как awkили улучшив шаблон, который grepиспользуется для сопоставления строк.

Answer

Этот скрипт Bash делает то, что вам нужно, но не использует только sedи awk. Я уверен, что если бы на его разработку было потрачено больше времени, его можно было бы усовершенствовать, но он, в общем-то, делает то, что вам нужно.

$ more cmd.bash 
#!/bin/bash

while read line; do 
    f1=$(echo "$line" | awk -F", " '{print $3}')
    f2=$(echo "$line" | awk -F", " '{print $7}')
    echo "$line" | grep  "${f1}.*$(expr ${f1:2} + 1).*${f2}.*$(expr ${f2:2} + 1)"
done <file

Пример запуска

$ ./cmd.bash 
RZ_AUTO_1, 1cx0, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_2, 1drz, C118, B, C119, B, A165, B, A166, B, CC/AA Canonical ribose-zipper
RZ_AUTO_3, 1ffk, C208, 0, G209, 0, A665, 0, A666, 0, CG/AA Canonical ribose-zipper

Недостатки

Одной из областей, где необходимо дальнейшее улучшение, является выбор совпадений в grepстроке. Это может привести к ложным срабатываниям в его текущей форме. Это можно сделать лучше, используя такой инструмент, как awkили улучшив шаблон, который grepиспользуется для сопоставления строк.

Фильтрация файла .CSV на основе последовательных чисел в строке

решение1

решение2

решение3

Пример запуска

Недостатки

Связанный контент