¿Cómo calcular el número promedio de columnas en las filas, así como el número máximo de columnas en un archivo en Unix?

¿Cómo calcular el número promedio de columnas en las filas, así como el número máximo de columnas en un archivo en Unix?

Tengo un archivo que se parece a:

1
2 4 5 6 7 19
20
22
24 26 27 
29 30 31 32 34 40 50 56 58
234 235 270 500
1234 1235 1236 1237
2300

considerando que mi archivo de datos reales es enorme. Entonces quiero verificar cuál es el número máximo en este archivo de datos. También quiero comprobar, en promedio, cuántas columnas existen dentro de las filas. Como ejemplo, en este pequeño ejemplo, el número máximo de columnas es 9 (en la quinta fila) y en promedio hay 3,33 columnas dentro de las filas. ¿Alguna sugerencia por favor?

Respuesta1

$ awk 'NF > m { m = NF } { s += NF } END { printf("Max = %d\nAvg = %g\n", m, s/NR) }' data.in
Max = 9
Avg = 3.33333

El awkscript realizará un seguimiento del número máximo de campos (columnas) my la suma del número de campos en s. Al llegar al final del flujo de entrada, generará las estadísticas recopiladas.

El número de campos en el registro (línea) actual es NFy el número de registros leídos hasta el momento es NR.

La siguiente versión también realizará un seguimiento del registro con la mayor cantidad de campos:

awk 'NF > m { m = NF; r = NR } { s += NF } END { printf("Max = %d (%d)\nAvg = %g\n", m, r, s/NR) }' data.in
Max = 9 (6)
Avg = 3.33333

Respuesta2

Podrías utilizar la utilidad "dc" para el trabajo de matemáticas:

dc -e "
[zsmlksn]sb
[lk1+skzls+ss]sa
[[Max = ]nlmn[(]nlnn[)]n10an[Avg = ]n5klslk/1/n10an]sp
[lpxq]sq
[?z0=qlaxzlm<bcl?x]s?
0ddddsksmsnssd=?
"

Lo que se muestra a continuación para el funcionamiento de lo anterior.

tr '\t-' ' _'  data.in | # dc wants negative numbers to begin with underscores
dc -e "
[
   z sm  # store current num of cols in register "m"
   lk sn # store row num in register "n"
]sb

[
   lk 1 + sk # increment the number of rows
   z ls + ss # add num of cols to running sum of cols
]sa

[
   [Max=]n
   lmn             # put max number of cols on ToS & print it
   [(]n
      lnn          # put row num at which max number of cols are present on ToS & print it
   [)]n
   10an

   [Avg=]n
     5k ls lk /1/n  # accuracy of 5 digits, compute average = sum of cols / total num of cols
   10an

]sp

[
   lpx # print the results by invoking the macro "p"
   q   # quit
]sq

# while loop for reading in lines
[
   ? z 0 =q # quit when no columns found in the current line read in
   lax      # macro "a" does: rows++, sum+=cols
   z lm <b  # update max cols value stored in register "lm" when cols > lm
   c        # clear out the line and read in the next line
   l?x      # read the next line
]s?

# initializations+set the ball rolling:
# register "sk" -> line kount
# register "sm" -> max cols
# register "sn" -> row number corresp. to max cols
# register "ss" -> sum of cols

0
  d  d  d  d
  sk sm sn ss
d=?
"

Resultados

Max = 9(6)
Avg = 3.33333

información relacionada