
私の入力ファイルには、以下のような3つの列があります。
入力ファイル:
water 123 wa
water 123 at
water 123 te
water 123 er
rater 347 ra
rater 347 at
rater 347 te
rater 347 er
ここで、出力ファイルを以下のようにし、バイグラムの頻度を新しい列にリストします。
出力ファイル:
water 123 wa 1
water 123 at 2
water 123 te 2
water 123 er 2
rater 347 ra 1
rater 347 at 2
rater 347 te 2
rater 347 er 2
以下のコマンドを試しましたが、残念ながら期待した結果は得られませんでした。
$ awk 'BEGIN {FS="\t"} {for (i=1; i<=NF; i++) count[$3]++}
END {for (word in count) printf "%s\t%s\t%s\t%d\n", $1, $2, word, count[word]}' \
INPUT_FILE
答え1
1 つの方法は、ファイルを 2 回処理することです。1 回目はカウントし、2 回目は印刷します。
awk 'NR==FNR {count[$3]++; next} {print $0, count[$3]}' input.file input.file
あるいは、各行を保存し、最後にすべてを出力します。
awk '
{count[$3]++; line[NR]=$0}
END {
for (nr=1; nr<=NR; nr++) {
$0 = line[nr]
print $0, count[$3]
}
}
' input.file