結果：

Question 1

awk多次元配列を使用したアプローチと並べ替え関数：

awk 'NR==1{ h=$0; } NR>1 { b[NR]=$0;a[$1][length(a[$1])+1]=$3; }
    END { print h,"diff";
        for (i in a) { asort(a[i]) } 
        for (k=2;k<=NR;k++) { 
            split(b[k],sep); max=length(a[sep[1]]); 
            print b[k],a[sep[1]][max] - a[sep[1]][1]
        } 
    }' file

出力：

Id str mt no   diff
101 2 550 1 350
101 3 540 2 350
101 3 350 3 350
101 4 600 4 350
101 4 700 5 350
102 1 400 1 200
102 4 500 2 200
102 4 350 3 200
102 3 550 4 200
103 3 500 1 250
103 4 300 2 250
103 3 550 3 250

Answer

awk多次元配列を使用したアプローチと並べ替え関数：

awk 'NR==1{ h=$0; } NR>1 { b[NR]=$0;a[$1][length(a[$1])+1]=$3; }
    END { print h,"diff";
        for (i in a) { asort(a[i]) } 
        for (k=2;k<=NR;k++) { 
            split(b[k],sep); max=length(a[sep[1]]); 
            print b[k],a[sep[1]][max] - a[sep[1]][1]
        } 
    }' file

出力：

Id str mt no   diff
101 2 550 1 350
101 3 540 2 350
101 3 350 3 350
101 4 600 4 350
101 4 700 5 350
102 1 400 1 200
102 4 500 2 200
102 4 350 3 200
102 3 550 4 200
103 3 500 1 250
103 4 300 2 250
103 3 550 3 250

Question 2

以下は「教育的」バージョンです。

awk '
NR == 1 {
  header=$0
}
NR > 1 {
  line[NR]=$0
  if($4==1) {
    min[$1]=max[$1]=$3
  }
  else {
    if(min[$1]>$3) min[$1]=$3
    if(max[$1]<$3) max[$1]=$3
  }
}
END {
  printf("%s diff\n",header)
  for(i=2;i<=NR;i++) {
    split(line[i],e)
    printf("%s %d\n",line[i],max[e[1]]-min[e[1]])
  }
}
' datafile > output

id 列が順序付けられていることが保証されていると仮定すると、メモリ使用量も大幅に少なくなる、より高速なバージョンは次のようになります。

awk 'function f() {for(i in r) printf("%s %d\n",r[i],u-l); delete r}
NR == 1 {printf("%s diff\n",$0)}
NR > 1 {if($4==1) {f(); l=u=$3}
  else {if(l>$3)l=$3; if(u<$3)u=$3}
  r[$4]=$0 }
END {f()}
'  datafile > output

これらのスクリプトは両方とも要求された出力を生成し、POSIX 準拠の awk 実装で動作します。つまり、のような GNU awk 拡張機能は必要ありませんasort。

Answer

以下は「教育的」バージョンです。

awk '
NR == 1 {
  header=$0
}
NR > 1 {
  line[NR]=$0
  if($4==1) {
    min[$1]=max[$1]=$3
  }
  else {
    if(min[$1]>$3) min[$1]=$3
    if(max[$1]<$3) max[$1]=$3
  }
}
END {
  printf("%s diff\n",header)
  for(i=2;i<=NR;i++) {
    split(line[i],e)
    printf("%s %d\n",line[i],max[e[1]]-min[e[1]])
  }
}
' datafile > output

id 列が順序付けられていることが保証されていると仮定すると、メモリ使用量も大幅に少なくなる、より高速なバージョンは次のようになります。

awk 'function f() {for(i in r) printf("%s %d\n",r[i],u-l); delete r}
NR == 1 {printf("%s diff\n",$0)}
NR > 1 {if($4==1) {f(); l=u=$3}
  else {if(l>$3)l=$3; if(u<$3)u=$3}
  r[$4]=$0 }
END {f()}
'  datafile > output

これらのスクリプトは両方とも要求された出力を生成し、POSIX 準拠の awk 実装で動作します。つまり、のような GNU awk 拡張機能は必要ありませんasort。

Question 3

perl -lane '
     push @A, $_; next if $. == 1; ($a, $b) = @F[0,2];

     $b > ($M{$a} // -Inf)  and $M{$a} = $b;
     $b < ($m{$a} // +Inf)  and $m{$a} = $b;

     END{$,=$";
        print shift @A, q/diff/;
        ($a) = /\d+/g, print $_, $M{$a} - $m{$a} for @A;
     }
' datafile

結果：

Id str mt no diff
101 2 550 1 350
101 3 540 2 350
101 3 350 3 350
101 4 600 4 350
101 4 700 5 350
102 1 400 1 200
102 4 500 2 200
102 4 350 3 200
102 3 550 4 200
103 3 500 1 250
103 4 300 2 250
103 3 550 3 250

Answer

perl -lane '
     push @A, $_; next if $. == 1; ($a, $b) = @F[0,2];

     $b > ($M{$a} // -Inf)  and $M{$a} = $b;
     $b < ($m{$a} // +Inf)  and $m{$a} = $b;

     END{$,=$";
        print shift @A, q/diff/;
        ($a) = /\d+/g, print $_, $M{$a} - $m{$a} for @A;
     }
' datafile

結果：

Id str mt no diff
101 2 550 1 350
101 3 540 2 350
101 3 350 3 350
101 4 600 4 350
101 4 700 5 350
102 1 400 1 200
102 4 500 2 200
102 4 350 3 200
102 3 550 4 200
103 3 500 1 250
103 4 300 2 250
103 3 550 3 250

Question 4

2パスソリューションはこちら

awk -f runawk first_pass=1 file first_pass=0 file

の内容runawkは

FNR == 1 && /^Id/{
  if (!first_pass) print
  next
}
first_pass{
  if (!($1 in max)){
    min[$1] = max[$1] = $3
    next
  }
  max[$1] = $3 > max[$1]? $3: max[$1]
  min[$1] = $3 < min[$1]? $3: min[$1]
}
!(first_pass){
    print $1, $2, $3, max[$1] - min[$1]
}

Answer

2パスソリューションはこちら

awk -f runawk first_pass=1 file first_pass=0 file

の内容runawkは

FNR == 1 && /^Id/{
  if (!first_pass) print
  next
}
first_pass{
  if (!($1 in max)){
    min[$1] = max[$1] = $3
    next
  }
  max[$1] = $3 > max[$1]? $3: max[$1]
  min[$1] = $3 < min[$1]? $3: min[$1]
}
!(first_pass){
    print $1, $2, $3, max[$1] - min[$1]
}

結果：

答え1

答え2

答え3

結果：

答え4

関連情報