Exclua uma linha que contém 0 mais do que 'x' quantidade de vezes

Question 1

Com awk -F',0', três cópias ,0serão tomadas como trêsseparadores, dando quatroCamposno total. Portanto, se você usar awk -F',0' 'NF<5 {print}', deverá ver as linhas corretas na saída.

,0também corresponderá a strings como 213,0123, que você pode ou não querer considerar como separadores de zero.

Então, você também pode usar ,como separador de campos e contar os campos que contêm apenas aquele zero:

awk -F, '{z=0; for (i = 1 ; i <= NF ; i++) if ($i == 0) z++} z <= 4' file.csv

Answer

Com awk -F',0', três cópias ,0serão tomadas como trêsseparadores, dando quatroCamposno total. Portanto, se você usar awk -F',0' 'NF<5 {print}', deverá ver as linhas corretas na saída.

,0também corresponderá a strings como 213,0123, que você pode ou não querer considerar como separadores de zero.

Então, você também pode usar ,como separador de campos e contar os campos que contêm apenas aquele zero:

awk -F, '{z=0; for (i = 1 ; i <= NF ; i++) if ($i == 0) z++} z <= 4' file.csv

Question 2

Você também pode resolver seu problema usando expressões regulares e grep.

grep -Ev '(,0(,[^0,]+)*){4,}' file.csv

Eu testei neste arquivo:

gene,v1,v2,v3,v4,v5,v6,v7
gene1,0,1,5,0,0,4,100
gene2,1,0,0,0,5,210,2
gene3,0,0,0,0,6,0,0
gene4,0,0,0,4,6,0,0
gene5,0,1,0,4,6,0,0

Existem algumas suposições:

nenhum número diferente de zero começa com zero,
números zero contêm apenas um zero,
todos os números são inteiros.

A expressão regular pode ser estendida para resolver esses casos, caso seja necessário.

Answer

Você também pode resolver seu problema usando expressões regulares e grep.

grep -Ev '(,0(,[^0,]+)*){4,}' file.csv

Eu testei neste arquivo:

gene,v1,v2,v3,v4,v5,v6,v7
gene1,0,1,5,0,0,4,100
gene2,1,0,0,0,5,210,2
gene3,0,0,0,0,6,0,0
gene4,0,0,0,4,6,0,0
gene5,0,1,0,4,6,0,0

Existem algumas suposições:

nenhum número diferente de zero começa com zero,
números zero contêm apenas um zero,
todos os números são inteiros.

A expressão regular pode ser estendida para resolver esses casos, caso seja necessário.

Question 3

Abordagem KISS, comawk

awk -F, '{c = 0; for(i=1; i<=NF; i++) {c += $i == "0" ? 1 : 0}} c <= 3' file.csv
    gene,v1,v2,v3,v4,v5,v6,v7
    gene1,0,1,5,0,0,4,100
    gene2,1,0,0,0,5,210,2

Comperl

perl -F, -ne 'print unless (grep { $_ eq "0" } @F) > 3' file.csv
    gene,v1,v2,v3,v4,v5,v6,v7
    gene1,0,1,5,0,0,4,100
    gene2,1,0,0,0,5,210,2

Answer

Abordagem KISS, comawk

awk -F, '{c = 0; for(i=1; i<=NF; i++) {c += $i == "0" ? 1 : 0}} c <= 3' file.csv
    gene,v1,v2,v3,v4,v5,v6,v7
    gene1,0,1,5,0,0,4,100
    gene2,1,0,0,0,5,210,2

Comperl

perl -F, -ne 'print unless (grep { $_ eq "0" } @F) > 3' file.csv
    gene,v1,v2,v3,v4,v5,v6,v7
    gene1,0,1,5,0,0,4,100
    gene2,1,0,0,0,5,210,2

Question 4

Se todos os números forem inteiros, então usandoGNU awkque suporta limites de palavras \<...\>, você poderia fazer

gawk 'gsub(/\<0\>/, "0") <5' infile

Answer

Se todos os números forem inteiros, então usandoGNU awkque suporta limites de palavras \<...\>, você poderia fazer

gawk 'gsub(/\<0\>/, "0") <5' infile

Exclua uma linha que contém 0 mais do que 'x' quantidade de vezes

Responder1

Responder2

Responder3

Responder4

informação relacionada