キー値レコードを含むファイルを CSV に圧縮する

Question 1

次のawkプログラムは動作するはずです。理想的には、別のファイルに保存します (例: squash_to_csv.awk)。

#!/bin/awk -f

BEGIN {
    FS=": *"
    OFS=","
    recfields=split("name,description,email,lastLogon,status",fields,",")
}

function printrec(record) {
    for (i=1; i<=recfields; i++) {
    if (record[i]=="") record[i]="n/a"
    printf "%s%s",record[i],i==recfields?ORS:OFS;
    record[i]="";
    }
}
    
$1=="name" && (FNR>1) { printrec(current) }

{
    for (i=1; i<=recfields;i++) {
        if (fields[i]==$1) {
            current[i]=$2
            break
        }
    }
}

END {
    printrec(current)
}

これを次のように呼び出すことができます

awk -f squash_to_csv.awk input.dat
John Doe,AM,[email protected],999999999999999,active
Jane Doe,HR,[email protected],8888888888,active
Foo Bar,XX,[email protected],n/a,inactive

これにより、BEGINブロック内でいくつかの初期化が実行されます。

入力フィールドの区切り文字を「a の:後に 0 個以上のスペース」に設定します
出力フィールドセパレータを,
フィールド名の配列を初期化します（静的なアプローチを採用し、リストをハードコードします）

フィールドが見つかった場合name、それがファイルの最初の行にあるかどうかを確認し、そうでなければcurrentは、以前に収集されたデータを出力します。次に、遭遇したフィールドから始めて、配列内の次のレコードの収集を開始しますname。

他のすべての行については (簡単にするために、空行やコメント行は存在しないものと想定していますが、このプログラムはそれらを黙って無視するはずです)、プログラムはその行に記載されているフィールドを確認し、current現在のレコードに使用される配列内の適切な位置に値を格納します。

この関数はprintrec、このような配列をパラメータとして受け取り、実際の出力を実行します。欠落している値はn/a(または、使用したい他の文字列) に置き換えられます。出力後、フィールドはクリアされ、配列は次の一連のデータに対応できるようになります。

最後に最後のレコードも印刷されます。

注記

ファイルの「値」部分に:スペースの組み合わせも含まれる場合は、次のように置き換えることでプログラムを強化できます。
```
current[i]=$2
```
による
```
sub(/^[^:]*: */,"")
current[i]=$0
```
:これにより、行の最初の -space の組み合わせまでのすべてを削除 ( ) して、行のsub最初の -space の組み合わせ以降のすべてに値が設定されます。:
いずれかのフィールドに出力区切り文字 (例の場合,) を含めることができる場合は、準拠する標準に応じて、その文字をエスケープするか、出力を引用符で囲むか、適切な手段を講じる必要があります。
あなたが正しく指摘したように、シェルループはテキスト処理のツールとしてはあまり推奨されません。もっと詳しく知りたい場合は、以下を参照してください。このQ&A。

Answer