파일에서 두 번째 필드의 평균을 계산하는 방법은 무엇입니까?

Question 1

이상한 접근 방식:

$ awk '{ 
    date=substr($1,1,10); 
    tot[date]+=$2; 
    num[date]++
    }
    END{
        for(date in tot){
            printf "%s %.1f\n", date,tot[date]/num[date]
        }
    }' file 
2019-01-01 6.1
2019-01-02 5.1
2019-01-03 5.5

Answer

이상한 접근 방식:

$ awk '{ 
    date=substr($1,1,10); 
    tot[date]+=$2; 
    num[date]++
    }
    END{
        for(date in tot){
            printf "%s %.1f\n", date,tot[date]/num[date]
        }
    }' file 
2019-01-01 6.1
2019-01-02 5.1
2019-01-03 5.5

Question 2

사용밀러

$ mlr --nidx --repifs put '
    $1 = strftime(strptime($1,"%FT%T"),"%d-%m-%Y")
  ' then stats1 -a mean -f 2 -g 1 file
01-01-2019 6.070833
02-01-2019 5.075000
03-01-2019 5.458333

결과 형식을 지정하는 것은 Miller가 다소 부족한 영역인 것 같으므로 필요한 경우 numfmtex를 통해 결과를 파이핑하는 것이 좋습니다.

$ mlr --nidx --repifs put '
    $1 = strftime(strptime($1,"%FT%T"),"%d-%m-%Y")
  ' then stats1 -a mean -f 2 -g 1 file | numfmt --field=2 --format='%.1f'
01-01-2019      6.1
02-01-2019      5.1
03-01-2019      5.5

또는 충분히 최신 버전의 GNU awk를 사용하여 날짜의 신기원 시간으로 및 배열을 mktime색인화하는 데 사용합니다.sumcount

gawk '
  {
    split($1,dt,"[-T:]");
    k = mktime(sprintf("%04d %02d %02d 00 00 00", dt[1], dt[2], dt[3]));
    sum[k] += $2; count[k] += 1;
  }
  END {
    PROCINFO["sorted_in"] = "@ind_num_asc";
    for(k in count) printf "%s %.1f\n", strftime("%d-%m-%Y",k), sum[k]/count[k];
  }
' file

Python 기반에서 csvsql/를 사용하는 또 다른 대안은 다음과 같습니다 .csvformatcsvkit

$ csvsql -d ' ' -HS --query '
    SELECT strftime("%d-%m-%Y",date(a)) AS [Day], round(avg(b),1) AS [Avg] FROM file GROUP BY date(a)
  ' file | csvformat -T
/usr/lib/python3/dist-packages/agate/table/from_csv.py:88: RuntimeWarning: Column names not specified. "('a', 'b')" will be used as names.
Day Avg
01-01-2019  6.1
02-01-2019  5.1
03-01-2019  5.5

Answer

사용밀러

$ mlr --nidx --repifs put '
    $1 = strftime(strptime($1,"%FT%T"),"%d-%m-%Y")
  ' then stats1 -a mean -f 2 -g 1 file
01-01-2019 6.070833
02-01-2019 5.075000
03-01-2019 5.458333

결과 형식을 지정하는 것은 Miller가 다소 부족한 영역인 것 같으므로 필요한 경우 numfmtex를 통해 결과를 파이핑하는 것이 좋습니다.

$ mlr --nidx --repifs put '
    $1 = strftime(strptime($1,"%FT%T"),"%d-%m-%Y")
  ' then stats1 -a mean -f 2 -g 1 file | numfmt --field=2 --format='%.1f'
01-01-2019      6.1
02-01-2019      5.1
03-01-2019      5.5

또는 충분히 최신 버전의 GNU awk를 사용하여 날짜의 신기원 시간으로 및 배열을 mktime색인화하는 데 사용합니다.sumcount

gawk '
  {
    split($1,dt,"[-T:]");
    k = mktime(sprintf("%04d %02d %02d 00 00 00", dt[1], dt[2], dt[3]));
    sum[k] += $2; count[k] += 1;
  }
  END {
    PROCINFO["sorted_in"] = "@ind_num_asc";
    for(k in count) printf "%s %.1f\n", strftime("%d-%m-%Y",k), sum[k]/count[k];
  }
' file

Python 기반에서 csvsql/를 사용하는 또 다른 대안은 다음과 같습니다 .csvformatcsvkit

$ csvsql -d ' ' -HS --query '
    SELECT strftime("%d-%m-%Y",date(a)) AS [Day], round(avg(b),1) AS [Avg] FROM file GROUP BY date(a)
  ' file | csvformat -T
/usr/lib/python3/dist-packages/agate/table/from_csv.py:88: RuntimeWarning: Column names not specified. "('a', 'b')" will be used as names.
Day Avg
01-01-2019  6.1
02-01-2019  5.1
03-01-2019  5.5

파일에서 두 번째 필드의 평균을 계산하는 방법은 무엇입니까?

답변1

답변2

관련 정보