Mesclar várias linhas no mesmo arquivo com base na coluna 1

Question 1

awk '{
      if(NR!=1){a[$1]=$2";"a[$1]}
      else print $0}
    END{
      n = asorti(a, b);
      for (n in b) {
      print b[n],a[b[n]]
      }
    }'

Answer

awk '{
      if(NR!=1){a[$1]=$2";"a[$1]}
      else print $0}
    END{
      n = asorti(a, b);
      for (n in b) {
      print b[n],a[b[n]]
      }
    }'

Question 2

Uma solução Perl:

$ perl -F"\t" -anle 'if($.==1){print; next} push @{$k{$F[0]}},@F[1..$#F]; 
  END{print "$_\t" . join(";",@{$k{$_}}) for sort keys(%k)}' file 
A   B   
123 fvv;kjf;ccd
567 abc;abc
879 ttt

Isso pode funcionar em um número arbitrário de campos. No entanto, é necessário carregar algumas coisas na memória e isso pode ser um problema se o arquivo for grande.

Quanto a onde você errou, não podemos dizer a menos que você explique o que realmente aconteceu, mas, pensando bem, sua tentativa de Perl falharia porque:

Você está usando -F,o qual define o separador de campos como uma vírgula quando sua entrada possui tabulações.
Você está usando -le print "foo\n". O -ljá adiciona uma nova linha a cada chamada de impressão, então você terá várias linhas em branco.
Você está usando $h{$F[0]}.", ".$F[1];para anexar, então na primeira vez que for executado e $h{$F[0]}não estiver definido, você adicionará um extra ,no início do seu valor armazenado.
Você está olhando apenas para o segundo campo, ignorando todos os outros.

Da mesma forma, você awkfalhará porque:

Você está imprimindo foo""baro que concatenará a saída sem espaço entre cada campo. Você deseja print foo,bare também deseja OFS="\t"uma saída separada por tabulações.
Você está olhando apenas para o segundo campo, ignorando todos os outros.

Answer

Uma solução Perl:

$ perl -F"\t" -anle 'if($.==1){print; next} push @{$k{$F[0]}},@F[1..$#F]; 
  END{print "$_\t" . join(";",@{$k{$_}}) for sort keys(%k)}' file 
A   B   
123 fvv;kjf;ccd
567 abc;abc
879 ttt

Isso pode funcionar em um número arbitrário de campos. No entanto, é necessário carregar algumas coisas na memória e isso pode ser um problema se o arquivo for grande.

Quanto a onde você errou, não podemos dizer a menos que você explique o que realmente aconteceu, mas, pensando bem, sua tentativa de Perl falharia porque:

Você está usando -F,o qual define o separador de campos como uma vírgula quando sua entrada possui tabulações.
Você está usando -le print "foo\n". O -ljá adiciona uma nova linha a cada chamada de impressão, então você terá várias linhas em branco.
Você está usando $h{$F[0]}.", ".$F[1];para anexar, então na primeira vez que for executado e $h{$F[0]}não estiver definido, você adicionará um extra ,no início do seu valor armazenado.
Você está olhando apenas para o segundo campo, ignorando todos os outros.

Da mesma forma, você awkfalhará porque:

Você está imprimindo foo""baro que concatenará a saída sem espaço entre cada campo. Você deseja print foo,bare também deseja OFS="\t"uma saída separada por tabulações.
Você está olhando apenas para o segundo campo, ignorando todos os outros.

Question 3

desculpas por esta frase, mas aqui vai -

awk 'BEGIN{FS="\t"} {for(i=2; i<=NF; i++) { if (!a[$1]) a[$1]=$1FS$i ;else a[$1]=a[$1]";"$i};if ($1 != old) b[j++] = a[old];old=$1 } END{for (i=0; i<j; i++) print b[i] }' 1

123 fvv ;kjf;ccd
567 abc;abc
879 ttt

Answer

desculpas por esta frase, mas aqui vai -

awk 'BEGIN{FS="\t"} {for(i=2; i<=NF; i++) { if (!a[$1]) a[$1]=$1FS$i ;else a[$1]=a[$1]";"$i};if ($1 != old) b[j++] = a[old];old=$1 } END{for (i=0; i<j; i++) print b[i] }' 1

123 fvv ;kjf;ccd
567 abc;abc
879 ttt

Question 4

awk '
    function p(n,A){
        s = n
        for(i=2;i<=NF;i++){
            s = s "\t" A[i]
            A[i] = $i
        }
        if(n)
            print s
    }
    NR==1{
        print
        next
    }
    $1==n{
        for(i=2;i<=NR;i++)
            A[i] = A[i] ";" $i
        next
    }
    {
        p(n,A)
        n = $1
    }
    END{
        p(n,A)
    }
    ' file

Answer

awk '
    function p(n,A){
        s = n
        for(i=2;i<=NF;i++){
            s = s "\t" A[i]
            A[i] = $i
        }
        if(n)
            print s
    }
    NR==1{
        print
        next
    }
    $1==n{
        for(i=2;i<=NR;i++)
            A[i] = A[i] ";" $i
        next
    }
    {
        p(n,A)
        n = $1
    }
    END{
        p(n,A)
    }
    ' file

Mesclar várias linhas no mesmo arquivo com base na coluna 1

Responder1

Responder2

Responder3

Responder4

informação relacionada