É possível mesclar linhas com base nos valores exclusivos compostos de duas colunas

Question 1

Com o GNU datamashvocê poderia fazer:

datamash -t'|' groupby 1,3 collapse 2 < <(tail -n+3 file)

Saída:

Category code invalid|merchanta|03077,09877
Invalid ID|merchanta|12345
Invalid ID|merchantc|07323,03523
No valid reason|merchnatb|78653

Isso agrupa o primeiro e o terceiro campo e recolhe os valores do segundo campo. O tail -n+3é usado para pular as duas linhas do cabeçalho.

Você poderia usar awkpara trocar a segunda e terceira coluna da saída e headadicionar as linhas de cabeçalho:

{
  head -n2 file
  datamash -t'|' groupby 1,3 collapse 2 < <(tail -n+3 file) | 
    awk 'BEGIN{OFS=FS="|"}{print $1,$3,$2}'
}

Saída:

Error Desc|RefNo|Merchant
===================================
Category code invalid|03077,09877|merchanta
Invalid ID|12345|merchanta
Invalid ID|07323,03523|merchantc
No valid reason|78653|merchnatb

Answer

Com o GNU datamashvocê poderia fazer:

datamash -t'|' groupby 1,3 collapse 2 < <(tail -n+3 file)

Saída:

Category code invalid|merchanta|03077,09877
Invalid ID|merchanta|12345
Invalid ID|merchantc|07323,03523
No valid reason|merchnatb|78653

Isso agrupa o primeiro e o terceiro campo e recolhe os valores do segundo campo. O tail -n+3é usado para pular as duas linhas do cabeçalho.

Você poderia usar awkpara trocar a segunda e terceira coluna da saída e headadicionar as linhas de cabeçalho:

{
  head -n2 file
  datamash -t'|' groupby 1,3 collapse 2 < <(tail -n+3 file) | 
    awk 'BEGIN{OFS=FS="|"}{print $1,$3,$2}'
}

Saída:

Error Desc|RefNo|Merchant
===================================
Category code invalid|03077,09877|merchanta
Invalid ID|12345|merchanta
Invalid ID|07323,03523|merchantc
No valid reason|78653|merchnatb

Question 2

Provavelmente estou negligenciando algo - provavelmente é possível encurtar isso - mas funciona:

awk '
    BEGIN   {   FS="|"; OFS="|" }
    NR <= 2
    NR > 2  {
                seen_desc[$1]++
                seen_merc[$3]++
                if (ref[$1,$3] == "")
                        ref[$1,$3] = $2
                else
                        ref[$1,$3] = ref[$1,$3] "," $2
            }
    END     {
                for (desc in seen_desc) {
                        for (merc in seen_merc) {
                                if (ref[desc,merc] != "") {
                                        print desc, ref[desc,merc], merc
                                }
                        }
                }
            }'

Answer

Provavelmente estou negligenciando algo - provavelmente é possível encurtar isso - mas funciona:

awk '
    BEGIN   {   FS="|"; OFS="|" }
    NR <= 2
    NR > 2  {
                seen_desc[$1]++
                seen_merc[$3]++
                if (ref[$1,$3] == "")
                        ref[$1,$3] = $2
                else
                        ref[$1,$3] = ref[$1,$3] "," $2
            }
    END     {
                for (desc in seen_desc) {
                        for (merc in seen_merc) {
                                if (ref[desc,merc] != "") {
                                        print desc, ref[desc,merc], merc
                                }
                        }
                }
            }'

É possível mesclar linhas com base nos valores exclusivos compostos de duas colunas

Responder1

Responder2

informação relacionada