Classificar arquivo para duplicatas se for maior que um determinado número

Question 1

Usando a entrada fornecida, se você quiser descobrir quais caracteres aparecem maiores ou iguais a três vezes: mantenha uma contagem e imprima a linha na terceira vez que ela for vista

$ awk '++count[$0] == 3' file
a
b

Canalize isso para headlimitar a saída. Isso claramente não classifica por número de ocorrências. Para fazer isso, usando GNU awk:

gawk -v limit=3 '
    { ++count[$0] }
    END {
        PROCINFO["sorted_in"] = "@val_num_desc"
        n = 0
        for (line in count) {
            if (n == limit) break
            print count[line], line
            ++n
        }
    }
' file

saídas

6 a
3 b
2 d

Referênciahttps://www.gnu.org/software/gawk/manual/html_node/Controlling-Scanning.html

Answer

Usando a entrada fornecida, se você quiser descobrir quais caracteres aparecem maiores ou iguais a três vezes: mantenha uma contagem e imprima a linha na terceira vez que ela for vista

$ awk '++count[$0] == 3' file
a
b

Canalize isso para headlimitar a saída. Isso claramente não classifica por número de ocorrências. Para fazer isso, usando GNU awk:

gawk -v limit=3 '
    { ++count[$0] }
    END {
        PROCINFO["sorted_in"] = "@val_num_desc"
        n = 0
        for (line in count) {
            if (n == limit) break
            print count[line], line
            ++n
        }
    }
' file

saídas

6 a
3 b
2 d

Referênciahttps://www.gnu.org/software/gawk/manual/html_node/Controlling-Scanning.html

Question 2

Você poderia usar o início do seu pipeline original e depois awkfiltrar esses resultados:

sort file.log | uniq -c | sort -rn | awk '$1 >= 10' | head -n 5

O awkno final imprime apenas as linhas que correspondem a contagens maiores ou iguais a 10. O headno finalmuitoend limita o resultado geral a um máximo de cinco linhas.

Você pode fazer um pouco mais awk:

awk '{ c[$0]++ } END { for (w in c) if (c[w] >= 10) print c[w], w }' file.log |
sort -nr | head -n 5

Isso faz a contagem e a eliminação das linhas de contagem baixa primeiro e awk, em seguida, fornece os cinco principais resultados com sorte head.

A contagem é feita incrementando um elemento em um array associativo c, onde a linha atual de entrada é usada como chave.

O ENDbloco (que é acionado após a leitura da última linha de file.log), itera sobre todas as chaves de c, e se a chave corresponder a uma contagem maior ou igual a 10, a contagem é impressa junto com a linha que contém essa contagem.

Answer

Você poderia usar o início do seu pipeline original e depois awkfiltrar esses resultados:

sort file.log | uniq -c | sort -rn | awk '$1 >= 10' | head -n 5

O awkno final imprime apenas as linhas que correspondem a contagens maiores ou iguais a 10. O headno finalmuitoend limita o resultado geral a um máximo de cinco linhas.

Você pode fazer um pouco mais awk:

awk '{ c[$0]++ } END { for (w in c) if (c[w] >= 10) print c[w], w }' file.log |
sort -nr | head -n 5

Isso faz a contagem e a eliminação das linhas de contagem baixa primeiro e awk, em seguida, fornece os cinco principais resultados com sorte head.

A contagem é feita incrementando um elemento em um array associativo c, onde a linha atual de entrada é usada como chave.

O ENDbloco (que é acionado após a leitura da última linha de file.log), itera sobre todas as chaves de c, e se a chave corresponder a uma contagem maior ou igual a 10, a contagem é impressa junto com a linha que contém essa contagem.

Question 3

sort file.log | uniq -c | sort -rn | awk '{if($1 >= 10 && $1 <= 20){{print $1, $2}}}'

Answer

sort file.log | uniq -c | sort -rn | awk '{if($1 >= 10 && $1 <= 20){{print $1, $2}}}'

Classificar arquivo para duplicatas se for maior que um determinado número

Responder1

Responder2

Responder3

informação relacionada