Calculando a média no awk com base na condição da coluna em csv

Question 1

Veja isso:

awk -F, '{date1[$4]+=$1;++date2[$4]}END{for (key in date1) print "Average of",key,"is",date1[key]/date2[key]}' file
Average of 27:May:2017 is 2677.57
Average of 26:May:2017 is 1410.02
Average of 25:May:2017 is 2940.02

Explicação:

-F,: Define o delimitador. Alternativamente poderia serawk 'BEGIN{FS=","}...

Em seguida, criamos dois arrays date1e date2nos quais usamos o 4º campo $4como índice/chave do array e o primeiro campo $1como valor adicionado ao valor existente da mesma posição do array.

Então para a primeira linha teríamos

date1[27:May:2017]+=2415.02
++date2[27:May:2017]-> aumenta o valor em 1 -> valor 1 para a primeira linha

Para a próxima mesma data (linha 2) teríamos

date1[27:May:2017]+=2415.02 + 3465.02
++date2[27:May:2017]-> aumenta o valor em 1 -> valor 2 (segunda linha)

A mesma lógica se estende a todas as linhas com a mesma data e também a todas as datas diferentes.

No final, usamos um forloop para iterar pelas chaves do array date1(ou date2- as chaves são iguais em ambos os arrays => $4) e para cada keyencontrado imprimimos key(= a data $4) e também imprimimos o date1[key]valor = soma de todos $1os valores para a mesma data $4, divididos por date2[key]valor = contagem numérica das linhas encontradas com a mesma data = mesma $4.

Answer