Arquivo Squash com registros de valores-chave para CSV

Question 1

O awkprograma a seguir deve funcionar. Idealmente, você o salvaria em um arquivo separado (por exemplo squash_to_csv.awk):

#!/bin/awk -f

BEGIN {
    FS=": *"
    OFS=","
    recfields=split("name,description,email,lastLogon,status",fields,",")
}

function printrec(record) {
    for (i=1; i<=recfields; i++) {
    if (record[i]=="") record[i]="n/a"
    printf "%s%s",record[i],i==recfields?ORS:OFS;
    record[i]="";
    }
}
    
$1=="name" && (FNR>1) { printrec(current) }

{
    for (i=1; i<=recfields;i++) {
        if (fields[i]==$1) {
            current[i]=$2
            break
        }
    }
}

END {
    printrec(current)
}

Você pode então chamar isso de

awk -f squash_to_csv.awk input.dat
John Doe,AM,[email protected],999999999999999,active
Jane Doe,HR,[email protected],8888888888,active
Foo Bar,XX,[email protected],n/a,inactive

Isso executará alguma inicialização no BEGINbloco:

defina o separador do campo de entrada como "a :seguido de zero ou mais espaços"
defina o separador do campo de saída como,
inicializamos uma matriz de nomes de campos (adotamos uma abordagem estática e codificamos a lista)

Se o namecampo for encontrado, ele verificará se está na primeira linha do arquivo ese não, imprima os dados coletados anteriormente. Ele então começará a coletar o próximo registro no array current, começando com o namecampo que acabou de ser encontrado.

Para todas as outras linhas (presumo, para simplificar, que não haja linhas vazias ou de comentários - mas, novamente, este programa deve simplesmente ignorá-las silenciosamente), o programa verifica quais dos campos são mencionados na linha e armazena o valor no posição apropriada na currentmatriz usada para o registro atual.

A função printrecusa esse array como parâmetro e executa a saída real. Os valores ausentes são substituídos por n/a(ou qualquer outra string que você queira usar). Após a impressão, os campos são limpos para que o array esteja pronto para o próximo conjunto de dados.

Ao final, o último registro também é impresso.

Observação

Se a parte "valor" do arquivo também puder incluir :combinações -space, você poderá proteger o programa substituindo
```
current[i]=$2
```
por
```
sub(/^[^:]*: */,"")
current[i]=$0
```
que definirá o valor como "tudo após a primeira :combinação -space" na linha, removendo ( sub) tudo até incluir a primeira :combinação -space na linha.
Se algum dos campos puder conter o caractere separador de saída (no seu exemplo ,), você terá que tomar as medidas apropriadas para escapar desse caractere ou citar a saída, dependendo do padrão que deseja aderir.
Como você observou corretamente, os shell loops são muito desencorajados como ferramentas para processamento de texto. Se você estiver interessado em ler mais, você pode querer dar uma olhada emestas perguntas e respostas.

Answer