Wie berechnet man den Durchschnitt des 2. Felds aus Dateien?

Question 1

Ein awk-Ansatz:

$ awk '{ 
    date=substr($1,1,10); 
    tot[date]+=$2; 
    num[date]++
    }
    END{
        for(date in tot){
            printf "%s %.1f\n", date,tot[date]/num[date]
        }
    }' file 
2019-01-01 6.1
2019-01-02 5.1
2019-01-03 5.5

Answer

Ein awk-Ansatz:

$ awk '{ 
    date=substr($1,1,10); 
    tot[date]+=$2; 
    num[date]++
    }
    END{
        for(date in tot){
            printf "%s %.1f\n", date,tot[date]/num[date]
        }
    }' file 
2019-01-01 6.1
2019-01-02 5.1
2019-01-03 5.5

Question 2

Verwenden vonMüller

$ mlr --nidx --repifs put '
    $1 = strftime(strptime($1,"%FT%T"),"%d-%m-%Y")
  ' then stats1 -a mean -f 2 -g 1 file
01-01-2019 6.070833
02-01-2019 5.075000
03-01-2019 5.458333

Das Formatieren der Ergebnisse scheint ein Bereich zu sein, in dem Miller einige Defizite hat. Wenn Sie das also brauchen, schlage ich vor, die Ergebnisse durch numfmtz. B. weiterzuleiten.

$ mlr --nidx --repifs put '
    $1 = strftime(strptime($1,"%FT%T"),"%d-%m-%Y")
  ' then stats1 -a mean -f 2 -g 1 file | numfmt --field=2 --format='%.1f'
01-01-2019      6.1
02-01-2019      5.1
03-01-2019      5.5

Alternativ können Sie mit einer ausreichend aktuellen Version von GNU awk und unter Verwendung von und mktimezum Indizieren der Arrays mit der Epochenzeit des Datums Folgendes tun:sumcount

gawk '
  {
    split($1,dt,"[-T:]");
    k = mktime(sprintf("%04d %02d %02d 00 00 00", dt[1], dt[2], dt[3]));
    sum[k] += $2; count[k] += 1;
  }
  END {
    PROCINFO["sorted_in"] = "@ind_num_asc";
    for(k in count) printf "%s %.1f\n", strftime("%d-%m-%Y",k), sum[k]/count[k];
  }
' file

Eine weitere Alternative mit csvsql/ csvformataus dem Python-basierten csvkit:

$ csvsql -d ' ' -HS --query '
    SELECT strftime("%d-%m-%Y",date(a)) AS [Day], round(avg(b),1) AS [Avg] FROM file GROUP BY date(a)
  ' file | csvformat -T
/usr/lib/python3/dist-packages/agate/table/from_csv.py:88: RuntimeWarning: Column names not specified. "('a', 'b')" will be used as names.
Day Avg
01-01-2019  6.1
02-01-2019  5.1
03-01-2019  5.5

Answer

Verwenden vonMüller

$ mlr --nidx --repifs put '
    $1 = strftime(strptime($1,"%FT%T"),"%d-%m-%Y")
  ' then stats1 -a mean -f 2 -g 1 file
01-01-2019 6.070833
02-01-2019 5.075000
03-01-2019 5.458333

Das Formatieren der Ergebnisse scheint ein Bereich zu sein, in dem Miller einige Defizite hat. Wenn Sie das also brauchen, schlage ich vor, die Ergebnisse durch numfmtz. B. weiterzuleiten.

$ mlr --nidx --repifs put '
    $1 = strftime(strptime($1,"%FT%T"),"%d-%m-%Y")
  ' then stats1 -a mean -f 2 -g 1 file | numfmt --field=2 --format='%.1f'
01-01-2019      6.1
02-01-2019      5.1
03-01-2019      5.5

Alternativ können Sie mit einer ausreichend aktuellen Version von GNU awk und unter Verwendung von und mktimezum Indizieren der Arrays mit der Epochenzeit des Datums Folgendes tun:sumcount

gawk '
  {
    split($1,dt,"[-T:]");
    k = mktime(sprintf("%04d %02d %02d 00 00 00", dt[1], dt[2], dt[3]));
    sum[k] += $2; count[k] += 1;
  }
  END {
    PROCINFO["sorted_in"] = "@ind_num_asc";
    for(k in count) printf "%s %.1f\n", strftime("%d-%m-%Y",k), sum[k]/count[k];
  }
' file

Eine weitere Alternative mit csvsql/ csvformataus dem Python-basierten csvkit:

$ csvsql -d ' ' -HS --query '
    SELECT strftime("%d-%m-%Y",date(a)) AS [Day], round(avg(b),1) AS [Avg] FROM file GROUP BY date(a)
  ' file | csvformat -T
/usr/lib/python3/dist-packages/agate/table/from_csv.py:88: RuntimeWarning: Column names not specified. "('a', 'b')" will be used as names.
Day Avg
01-01-2019  6.1
02-01-2019  5.1
03-01-2019  5.5

Wie berechnet man den Durchschnitt des 2. Felds aus Dateien?

Antwort1

Antwort2

verwandte Informationen