Squash-Datei mit Schlüssel-Wert-Datensätzen nach CSV

Question 1

Das folgende awkProgramm sollte funktionieren. Idealerweise speichern Sie es in einer separaten Datei (z. B. squash_to_csv.awk):

#!/bin/awk -f

BEGIN {
    FS=": *"
    OFS=","
    recfields=split("name,description,email,lastLogon,status",fields,",")
}

function printrec(record) {
    for (i=1; i<=recfields; i++) {
    if (record[i]=="") record[i]="n/a"
    printf "%s%s",record[i],i==recfields?ORS:OFS;
    record[i]="";
    }
}
    
$1=="name" && (FNR>1) { printrec(current) }

{
    for (i=1; i<=recfields;i++) {
        if (fields[i]==$1) {
            current[i]=$2
            break
        }
    }
}

END {
    printrec(current)
}

Sie können dies dann als aufrufen

awk -f squash_to_csv.awk input.dat
John Doe,AM,[email protected],999999999999999,active
Jane Doe,HR,[email protected],8888888888,active
Foo Bar,XX,[email protected],n/a,inactive

Dadurch werden einige Initialisierungsvorgänge im BEGINBlock durchgeführt:

Setzen Sie das Eingabefeldtrennzeichen auf „a :gefolgt von null oder mehr Leerzeichen“.
Setzen Sie den Ausgabefeldtrenner auf,
Initialisieren Sie ein Array von Feldnamen (wir wählen einen statischen Ansatz und codieren die Liste fest).

Wenn das nameFeld gefunden wird, wird geprüft, ob es sich in der ersten Zeile der Datei befindet, undwenn nicht, druckt die zuvor erfassten Daten aus. Anschließend wird mit dem Erfassen des nächsten Datensatzes im Array begonnen current, beginnend mit dem namegerade gefundenen Feld.

Für alle anderen Zeilen (der Einfachheit halber gehe ich davon aus, dass es keine leeren Zeilen oder Kommentarzeilen gibt – aber andererseits sollte dieses Programm diese einfach stillschweigend ignorieren) prüft das Programm, welches der Felder in der Zeile erwähnt wird, und speichert den Wert an der entsprechenden Position im currentArray, das für den aktuellen Datensatz verwendet wird.

Die Funktion printrecverwendet ein solches Array als Parameter und führt die eigentliche Ausgabe aus. Fehlende Werte werden durch n/a(oder einen beliebigen anderen String Ihrer Wahl) ersetzt. Nach dem Drucken werden die Felder gelöscht, sodass das Array für die nächste Datenmenge bereit ist.

Zum Schluss wird auch der letzte Datensatz ausgedruckt.

Notiz

Wenn der "value"-Teil der Datei auch :-space-Kombinationen enthalten kann, können Sie das Programm härten, indem Sie ersetzen
```
current[i]=$2
```
von
```
sub(/^[^:]*: */,"")
current[i]=$0
```
Dadurch wird der Wert auf „alles nach der ersten :Leerzeichenkombination“ in der Zeile gesetzt, indem suballes bis einschließlich der ersten :Leerzeichenkombination in der Zeile entfernt () wird.
Wenn eines der Felder das Ausgabetrennzeichen enthalten kann (in Ihrem Beispiel ,), müssen Sie je nach dem Standard, den Sie einhalten möchten, geeignete Maßnahmen ergreifen, um dieses Zeichen entweder zu maskieren oder die Ausgabe in Anführungszeichen zu setzen.
Wie Sie richtig bemerkt haben, sind Shell-Loops als Werkzeuge für die Textverarbeitung sehr zu empfehlen. Wenn Sie mehr darüber lesen möchten, können Sie einen Blick aufdiese Frage und Antwort.

Answer