Вычисление среднего значения в awk на основе состояния столбца в csv

Question 1

Проверь это:

awk -F, '{date1[$4]+=$1;++date2[$4]}END{for (key in date1) print "Average of",key,"is",date1[key]/date2[key]}' file
Average of 27:May:2017 is 2677.57
Average of 26:May:2017 is 1410.02
Average of 25:May:2017 is 2940.02

Объяснение:

-F,: Определяет разделитель. Альтернативно может бытьawk 'BEGIN{FS=","}...

Затем мы создаем два массива date1, date2в которых четвертое поле используем $4как индекс/ключ массива, а первое поле — $1как значение, добавленное к существующему значению той же позиции массива.

Итак, для первой строки мы будем иметь

date1[27:May:2017]+=2415.02
++date2[27:May:2017]--> увеличивает значение на 1 --> значение 1 для первой строки

Для следующей той же даты (строка 2) мы будем иметь

date1[27:May:2017]+=2415.02 + 3465.02
++date2[27:May:2017]--> увеличивает значение на 1 --> значение 2 (вторая строка)

Та же логика распространяется на все строки, имеющие одну и ту же дату, а также на все разные даты.

В конце мы используем forцикл для перебора ключей массива date1(или date2- ключи одинаковы в обоих массивах => $4) и для каждого keyнайденного выводим key(= дату $4), а также выводим date1[key]значение = сумму всех $1значений для той же даты $4, деленную на date2[key]значение = числовое количество найденных строк с той же датой = то же самое $4.

Answer