Archivo Squash con registros clave-valor a CSV

Question 1

El siguiente awkprograma debería funcionar. Lo ideal sería guardarlo en un archivo separado (por ejemplo squash_to_csv.awk):

#!/bin/awk -f

BEGIN {
    FS=": *"
    OFS=","
    recfields=split("name,description,email,lastLogon,status",fields,",")
}

function printrec(record) {
    for (i=1; i<=recfields; i++) {
    if (record[i]=="") record[i]="n/a"
    printf "%s%s",record[i],i==recfields?ORS:OFS;
    record[i]="";
    }
}
    
$1=="name" && (FNR>1) { printrec(current) }

{
    for (i=1; i<=recfields;i++) {
        if (fields[i]==$1) {
            current[i]=$2
            break
        }
    }
}

END {
    printrec(current)
}

Luego puedes llamar a esto como

awk -f squash_to_csv.awk input.dat
John Doe,AM,[email protected],999999999999999,active
Jane Doe,HR,[email protected],8888888888,active
Foo Bar,XX,[email protected],n/a,inactive

Esto realizará alguna inicialización en el BEGINbloque:

establezca el separador del campo de entrada en "a :seguido de cero o más espacios"
establezca el separador de campo de salida en,
inicializar una serie de nombres de campos (adoptamos un enfoque estático y codificamos la lista)

Si se encuentra el namecampo, comprobará si está en la primera línea del archivo ysi no, imprima los datos recopilados anteriormente. Luego comenzará a recopilar el siguiente registro de la matriz current, comenzando con el namecampo que acaba de encontrar.

Para todas las demás líneas (para simplificar, asumo que no hay líneas vacías ni de comentarios, pero, de nuevo, este programa debería simplemente ignorarlas silenciosamente), el programa verifica cuál de los campos se menciona en la línea y almacena el valor en la posición apropiada en la currentmatriz utilizada para el registro actual.

La función printrectoma dicha matriz como parámetro y realiza la salida real. Los valores faltantes se sustituyen por n/a(o cualquier otra cadena que desee utilizar). Después de imprimir, los campos se borran para que la matriz esté lista para el siguiente conjunto de datos.

Al final, también se imprime el último registro.

Nota

Si la parte "valor" del archivo también puede incluir :combinaciones de espacio, puede reforzar el programa reemplazando
```
current[i]=$2
```
por
```
sub(/^[^:]*: */,"")
current[i]=$0
```
que establecerá el valor en "todo después de la primera :combinación de espacios" en la línea, eliminando ( sub) todo hasta incluir la primera :combinación de espacios en la línea.
Si alguno de los campos puede contener el carácter separador de salida (en su ejemplo ,), tendrá que tomar las medidas adecuadas para escapar de ese carácter o citar la salida, según el estándar que desee cumplir.
Como señaló correctamente, se desaconsejan los bucles de shell como herramientas para el procesamiento de texto. Si está interesado en leer más, puede consultarestas preguntas y respuestas.

Answer