juntar linhas com base em string em 2 colunas de 2 arquivos

Question

Usando GNU awke GNU join, que são padrão no Linux (podem ou não funcionar com versões não-GNU):

$ join -a1 -1 3 -2 2 <(sort -k3,3 file1) <(sort -k2,2 file2) | 
    awk '$4 == "" { $4 = "-" }; {t=$1; $1=$2; $2=$3; $3=t; print}' |
    sort
300 100 a101 b60 uuuuuuuu 344
450 410 a400 -
670 710 a20 -
700 610 a340 b30 tttttttt 456

O joincomando une arquivo1 e arquivo2 nos campos 3 e 2 respectivamente. Ele usasubstituição de processopara garantir que ambos os arquivos sejam classificados por seus respectivos campos-chave. A -a 1opção é usada para que todas as linhas de file1sejam impressas, mesmo que não correspondam a uma linha de file2.

Infelizmente, joincoloca o campo-chave do arquivo1 no início de cada registro. Isso é corrigido para awkmover os campos de volta à sua ordem original, usando uma variável chamada tcomo detentor temporário para o valor de $1. O script awk também adiciona o caractere traço final no campo $4 se não houver correspondência entre os arquivos (porque joinele próprio não faz isso).

Finalmente, a saída é classificada.

Answer 1

Usando GNU awke GNU join, que são padrão no Linux (podem ou não funcionar com versões não-GNU):

$ join -a1 -1 3 -2 2 <(sort -k3,3 file1) <(sort -k2,2 file2) | 
    awk '$4 == "" { $4 = "-" }; {t=$1; $1=$2; $2=$3; $3=t; print}' |
    sort
300 100 a101 b60 uuuuuuuu 344
450 410 a400 -
670 710 a20 -
700 610 a340 b30 tttttttt 456

O joincomando une arquivo1 e arquivo2 nos campos 3 e 2 respectivamente. Ele usasubstituição de processopara garantir que ambos os arquivos sejam classificados por seus respectivos campos-chave. A -a 1opção é usada para que todas as linhas de file1sejam impressas, mesmo que não correspondam a uma linha de file2.

Infelizmente, joincoloca o campo-chave do arquivo1 no início de cada registro. Isso é corrigido para awkmover os campos de volta à sua ordem original, usando uma variável chamada tcomo detentor temporário para o valor de $1. O script awk também adiciona o caractere traço final no campo $4 se não houver correspondência entre os arquivos (porque joinele próprio não faz isso).

Finalmente, a saída é classificada.

juntar linhas com base em string em 2 colunas de 2 arquivos

Responder1

informação relacionada