У меня есть файл, который выглядит так:
1
2 4 5 6 7 19
20
22
24 26 27
29 30 31 32 34 40 50 56 58
234 235 270 500
1234 1235 1236 1237
2300
учитывая, что мой реальный файл данных огромен. Поэтому я хочу проверить, каково максимальное число в этом файле данных. Также я хочу проверить, сколько в среднем столбцов существует в строках. например, в этом небольшом примере максимальное число столбцов составляет 9 (в 5-й строке), а в среднем в строках содержится 3,33 столбца. Какие-нибудь предложения, пожалуйста?
решение1
$ awk 'NF > m { m = NF } { s += NF } END { printf("Max = %d\nAvg = %g\n", m, s/NR) }' data.in
Max = 9
Avg = 3.33333
Скрипт awk
будет отслеживать максимальное количество полей (столбцов) в m
и сумму количества полей в s
. При достижении конца входного потока он выведет собранную статистику.
Количество полей в текущей записи (строке) равно NF
, а количество прочитанных на данный момент записей равно NR
.
Следующая версия также будет отслеживать запись с наибольшим количеством полей:
awk 'NF > m { m = NF; r = NR } { s += NF } END { printf("Max = %d (%d)\nAvg = %g\n", m, r, s/NR) }' data.in
Max = 9 (6)
Avg = 3.33333
решение2
Для математических вычислений можно использовать утилиту «dc»:
dc -e "
[zsmlksn]sb
[lk1+skzls+ss]sa
[[Max = ]nlmn[(]nlnn[)]n10an[Avg = ]n5klslk/1/n10an]sp
[lpxq]sq
[?z0=qlaxzlm<bcl?x]s?
0ddddsksmsnssd=?
"
Что было показано ниже по отношению к работе вышеизложенного
tr '\t-' ' _' data.in | # dc wants negative numbers to begin with underscores
dc -e "
[
z sm # store current num of cols in register "m"
lk sn # store row num in register "n"
]sb
[
lk 1 + sk # increment the number of rows
z ls + ss # add num of cols to running sum of cols
]sa
[
[Max=]n
lmn # put max number of cols on ToS & print it
[(]n
lnn # put row num at which max number of cols are present on ToS & print it
[)]n
10an
[Avg=]n
5k ls lk /1/n # accuracy of 5 digits, compute average = sum of cols / total num of cols
10an
]sp
[
lpx # print the results by invoking the macro "p"
q # quit
]sq
# while loop for reading in lines
[
? z 0 =q # quit when no columns found in the current line read in
lax # macro "a" does: rows++, sum+=cols
z lm <b # update max cols value stored in register "lm" when cols > lm
c # clear out the line and read in the next line
l?x # read the next line
]s?
# initializations+set the ball rolling:
# register "sk" -> line kount
# register "sm" -> max cols
# register "sn" -> row number corresp. to max cols
# register "ss" -> sum of cols
0
d d d d
sk sm sn ss
d=?
"
Полученные результаты
Max = 9(6)
Avg = 3.33333