Calcular el promedio en awk según la condición de la columna en csv

Question 1

Mira esto:

awk -F, '{date1[$4]+=$1;++date2[$4]}END{for (key in date1) print "Average of",key,"is",date1[key]/date2[key]}' file
Average of 27:May:2017 is 2677.57
Average of 26:May:2017 is 1410.02
Average of 25:May:2017 is 2940.02

Explicación:

-F,: Define el delimitador . Alternativamente podría serawk 'BEGIN{FS=","}...

Luego creamos dos matrices date1y date2en las que usamos el cuarto campo $4como índice/clave de la matriz y el primer campo $1como valor agregado al valor existente de la misma posición de la matriz.

Entonces para la primera fila tendríamos

date1[27:May:2017]+=2415.02
++date2[27:May:2017]--> aumenta el valor en 1 --> valor 1 para la primera línea

Para la siguiente misma fecha (línea 2) tendríamos

date1[27:May:2017]+=2415.02 + 3465.02
++date2[27:May:2017]--> aumenta el valor en 1 --> valor 2 (segunda línea)

La misma lógica se extiende a todas las líneas que tienen la misma fecha y también a todas las fechas diferentes.

Al final, usamos un forbucle para iterar a través de las claves de la matriz date1(o date2- las claves son las mismas en ambas matrices => $4) y para cada keyencontrada imprimimos key(= la fecha $4) y también imprimimos el date1[key]valor = suma de todos $1los valores para la misma fecha $4, divididos por date2[key]valor = recuento numérico de las líneas encontradas que tienen la misma fecha = igual $4.

Answer