Como obter o número de cada sinal de pontuação de um arquivo

Question 1

Isso imprimirá uma lista de todos os caracteres de pontuação encontrados no arquivo, um caractere de pontuação por linha, cada um precedido pela contagem desses caracteres no arquivo:

grep -o '[[:punct:]]' file | sort | uniq -c

Gosto de testar executando /var/log/syslog, o meu tem mais de 150.000 linhas no momento.

Answer

Isso imprimirá uma lista de todos os caracteres de pontuação encontrados no arquivo, um caractere de pontuação por linha, cada um precedido pela contagem desses caracteres no arquivo:

grep -o '[[:punct:]]' file | sort | uniq -c

Gosto de testar executando /var/log/syslog, o meu tem mais de 150.000 linhas no momento.

Question 2

Para encontrar o número total desses sinais de pontuação em um arquivo, você pode usar trpara retirar todos os outros e depois wccontar:

tr -dc '.?!' | wc -c

Answer

Para encontrar o número total desses sinais de pontuação em um arquivo, você pode usar trpara retirar todos os outros e depois wccontar:

tr -dc '.?!' | wc -c

Question 3

Aqui está um script awk que procura linhas contendo ., ?, ou !. Ele imprime o número da linha de cada linha que contém qualquer um desses sinais de pontuação, o número encontrado de cada marca, mais o número total de marcas nessa linha. No final dos dados imprime totais gerais.

Você pode passar vários nomes de arquivo na linha de comando e ele se comportará como se você tivesse catreunido todos os arquivos, mas é bastante fácil modificar esse script para processar cada arquivo individualmente.

#!/usr/bin/awk -f

# Count punctuation marks
# See http://unix.stackexchange.com/q/239894/88378
# Written by PM 2Ring 2015.10.131

BEGIN{
    FS = ""
    punc = ".?!"
    fmt = "%5s: .=%s, ?=%s, !=%s, all=%s\n"
}

/[.?!]+/{
    #print NR, $0, NF
    count[1] = count[2] = count[3] = 0
    for(i=1; i<=NF; i++)
    {
        n = index(punc, $i)
        if(n)
            count[n] += 1
    }
    all = count[1] + count[2] + count[3]
    printf fmt, NR, count[1], count[2], count[3], all
    for(i=1; i<=3; i++)
        total[i] += count[i]
}

END{
    all = total[1] + total[2] + total[3]
    printf fmt, "Total", total[1], total[2], total[3], all
}

Aqui estão alguns dados aleatórios que usei para testar este script:

Some test data
.a.?? .u o..ru. !!?aarl.?...t  s
e.?a.eli?.?s.. ?.r. s.t .e.a.le!
ti h  ..rs.  ?er.t. dn!t?.?.l.?t
?.n!rer e. d..!???? a .!..a.tit.
No punctuation
!.a.n..!isda!.o a!le.d..a.!sh.t?
?!?. ..!i  hi...h iii.?..a i hh?
.h r.u?....t..s !.. a  .li?hs !.
ia tso???.tr?t .hl..i.aids l.?.?
Bye-bye.

E aqui está a saída que foi gerada:

    2: .=10, ?=4, !=2, all=16
    3: .=11, ?=4, !=1, all=16
    4: .=8, ?=4, !=1, all=13
    5: .=9, ?=5, !=3, all=17
    7: .=10, ?=1, !=5, all=16
    8: .=9, ?=4, !=2, all=15
    9: .=12, ?=2, !=2, all=16
   10: .=7, ?=6, !=0, all=13
   11: .=1, ?=0, !=0, all=1
Total: .=77, ?=30, !=16, all=123

Testado em GNU Awk 3.1.7

Answer

Aqui está um script awk que procura linhas contendo ., ?, ou !. Ele imprime o número da linha de cada linha que contém qualquer um desses sinais de pontuação, o número encontrado de cada marca, mais o número total de marcas nessa linha. No final dos dados imprime totais gerais.

Você pode passar vários nomes de arquivo na linha de comando e ele se comportará como se você tivesse catreunido todos os arquivos, mas é bastante fácil modificar esse script para processar cada arquivo individualmente.

#!/usr/bin/awk -f

# Count punctuation marks
# See http://unix.stackexchange.com/q/239894/88378
# Written by PM 2Ring 2015.10.131

BEGIN{
    FS = ""
    punc = ".?!"
    fmt = "%5s: .=%s, ?=%s, !=%s, all=%s\n"
}

/[.?!]+/{
    #print NR, $0, NF
    count[1] = count[2] = count[3] = 0
    for(i=1; i<=NF; i++)
    {
        n = index(punc, $i)
        if(n)
            count[n] += 1
    }
    all = count[1] + count[2] + count[3]
    printf fmt, NR, count[1], count[2], count[3], all
    for(i=1; i<=3; i++)
        total[i] += count[i]
}

END{
    all = total[1] + total[2] + total[3]
    printf fmt, "Total", total[1], total[2], total[3], all
}

Aqui estão alguns dados aleatórios que usei para testar este script:

Some test data
.a.?? .u o..ru. !!?aarl.?...t  s
e.?a.eli?.?s.. ?.r. s.t .e.a.le!
ti h  ..rs.  ?er.t. dn!t?.?.l.?t
?.n!rer e. d..!???? a .!..a.tit.
No punctuation
!.a.n..!isda!.o a!le.d..a.!sh.t?
?!?. ..!i  hi...h iii.?..a i hh?
.h r.u?....t..s !.. a  .li?hs !.
ia tso???.tr?t .hl..i.aids l.?.?
Bye-bye.

E aqui está a saída que foi gerada:

    2: .=10, ?=4, !=2, all=16
    3: .=11, ?=4, !=1, all=16
    4: .=8, ?=4, !=1, all=13
    5: .=9, ?=5, !=3, all=17
    7: .=10, ?=1, !=5, all=16
    8: .=9, ?=4, !=2, all=15
    9: .=12, ?=2, !=2, all=16
   10: .=7, ?=6, !=0, all=13
   11: .=1, ?=0, !=0, all=1
Total: .=77, ?=30, !=16, all=123

Testado em GNU Awk 3.1.7

Question 4

sed -e'1{x;s/^/0ddsQsEsD[q]sq/p;x;}' \
    -e'/[^?!.]*\([?!.]\)[^?!.]*/!d;=' \
    -e's// l\11+s\1 /g;s/.*/pc0dds?s!s.&Q?E!D./' \
    -e's/\([QED]\)\(.\)/[l\21>q9P[\2=]Pl\2pl\1+9P[Total: ]Pps\1]x/g' |dc

Para qualquer linha que contenha qualquer um desses [?!.]comandos, primeiro imprimirá o número da linha, depois a contagem dos caracteres nessa linha e, em seguida, uma contagem contínua para cada um.

printf %s\\n \? \?\!. '' hey \? '' '' \! ...hey... .\!\? |
sed -e'1{x;s/^/0ddsQsEsD[q]sq/p;x;}' \
    -e'/[^?!.]*\([?!.]\)[^?!.]*/!d;=' \
    -e's// l\11+s\1 /g;s/.*/pc0dds?s!s.&Q?E!D./' \
    -e's/\([QED]\)\(.\)/[l\21>q9P[\2=]Pl\2pl\1+9P[Total: ]Pps\1]x/g' |dc

1
    ?=1
    Total: 1
2
    ?=1
    Total: 2
    !=1
    Total: 1
    .=1
    Total: 1
5
    ?=1
    Total: 3
8
    !=1
    Total: 2
9
    .=6
    Total: 7
10
    ?=1
    Total: 4
    !=1
    Total: 3
    .=1
    Total: 8

Answer

sed -e'1{x;s/^/0ddsQsEsD[q]sq/p;x;}' \
    -e'/[^?!.]*\([?!.]\)[^?!.]*/!d;=' \
    -e's// l\11+s\1 /g;s/.*/pc0dds?s!s.&Q?E!D./' \
    -e's/\([QED]\)\(.\)/[l\21>q9P[\2=]Pl\2pl\1+9P[Total: ]Pps\1]x/g' |dc

Para qualquer linha que contenha qualquer um desses [?!.]comandos, primeiro imprimirá o número da linha, depois a contagem dos caracteres nessa linha e, em seguida, uma contagem contínua para cada um.

printf %s\\n \? \?\!. '' hey \? '' '' \! ...hey... .\!\? |
sed -e'1{x;s/^/0ddsQsEsD[q]sq/p;x;}' \
    -e'/[^?!.]*\([?!.]\)[^?!.]*/!d;=' \
    -e's// l\11+s\1 /g;s/.*/pc0dds?s!s.&Q?E!D./' \
    -e's/\([QED]\)\(.\)/[l\21>q9P[\2=]Pl\2pl\1+9P[Total: ]Pps\1]x/g' |dc

1
    ?=1
    Total: 1
2
    ?=1
    Total: 2
    !=1
    Total: 1
    .=1
    Total: 1
5
    ?=1
    Total: 3
8
    !=1
    Total: 2
9
    .=6
    Total: 7
10
    ?=1
    Total: 4
    !=1
    Total: 3
    .=1
    Total: 8

Como obter o número de cada sinal de pontuação de um arquivo

Responder1

Responder2

Responder3

Responder4

informação relacionada