Diferença de dois arquivos grandes

Question 1

Parece um trabalho para comm:

$ comm -3 <(sort test1.csv) <(sort test2.csv)
100,300,500,700
    100,4,2,1,7
    21,22,23,24,25
    50,25,700,5

Conforme explicado em man comm:

   -1     suppress column 1 (lines unique to FILE1)

   -2     suppress column 2 (lines unique to FILE2)

   -3     suppress column 3 (lines that appear in both files)

Isso -3significa que apenas as linhas exclusivas de um dos arquivos serão impressas. No entanto, eles são recuados de acordo com o arquivo em que foram encontrados. Para remover a guia, use:

$ comm -3 <(sort test1.csv) <(sort test2.csv) | tr -d '\t'
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Nesse caso, você nem precisa classificar os arquivos e pode simplificar o procedimento acima para:

comm -3 test1.csv test2.csv | tr -d '\t' > difference.csv

Answer

Parece um trabalho para comm:

$ comm -3 <(sort test1.csv) <(sort test2.csv)
100,300,500,700
    100,4,2,1,7
    21,22,23,24,25
    50,25,700,5

Conforme explicado em man comm:

   -1     suppress column 1 (lines unique to FILE1)

   -2     suppress column 2 (lines unique to FILE2)

   -3     suppress column 3 (lines that appear in both files)

Isso -3significa que apenas as linhas exclusivas de um dos arquivos serão impressas. No entanto, eles são recuados de acordo com o arquivo em que foram encontrados. Para remover a guia, use:

$ comm -3 <(sort test1.csv) <(sort test2.csv) | tr -d '\t'
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Nesse caso, você nem precisa classificar os arquivos e pode simplificar o procedimento acima para:

comm -3 test1.csv test2.csv | tr -d '\t' > difference.csv

Question 2

Usando grepcom bashsubstituição de processo:

$ cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv)
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Para salvar a saída como results.csv:

cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv) >results.csv

<()é obashpadrão de substituição de processo
grep -vFf test2.csv test1.csvencontrará as linhas exclusivas apenas paratest1.csv
grep -vFf test1.csv test2.csvencontrará as linhas exclusivas apenas paratest2.csv
Finalmente estamos resumindo os resultados porcat

Ou comoOli sugeriu, você também pode usar o agrupamento de comandos:

$ { grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv; }
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Ou apenas execute um após o outro, pois ambos estão escrevendo para STDOUT e serão adicionados:

$ grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Answer

Usando grepcom bashsubstituição de processo:

$ cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv)
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Para salvar a saída como results.csv:

cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv) >results.csv

<()é obashpadrão de substituição de processo
grep -vFf test2.csv test1.csvencontrará as linhas exclusivas apenas paratest1.csv
grep -vFf test1.csv test2.csvencontrará as linhas exclusivas apenas paratest2.csv
Finalmente estamos resumindo os resultados porcat

Ou comoOli sugeriu, você também pode usar o agrupamento de comandos:

$ { grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv; }
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Ou apenas execute um após o outro, pois ambos estão escrevendo para STDOUT e serão adicionados:

$ grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Question 3

Se a ordem das linhas não for relevante, use awkou perl:

awk '{seen[$0]++} END {for (i in seen) {if (seen[i] == 1) {print i}}}' 1.csv 2.csv

Use greppara obter as linhas comuns e filtrá-las:

grep -hxvFf <(grep -Fxf 1.csv 2.csv) 1.csv 2.csv

O grep interno obtém as linhas comuns, então o grep externo encontra linhas que não correspondem a essas linhas comuns.

Answer

Se a ordem das linhas não for relevante, use awkou perl:

awk '{seen[$0]++} END {for (i in seen) {if (seen[i] == 1) {print i}}}' 1.csv 2.csv

Use greppara obter as linhas comuns e filtrá-las:

grep -hxvFf <(grep -Fxf 1.csv 2.csv) 1.csv 2.csv

O grep interno obtém as linhas comuns, então o grep externo encontra linhas que não correspondem a essas linhas comuns.

Question 4

Como o pedido não precisa ser preservado, basta:

sort test1.csv test2.csv | uniq -u

sort test1.csv test2.csv: mescla e classifica test1.csvetest2.csv
uniq -u: imprime apenas as linhas que não possuem duplicatas

Answer

Como o pedido não precisa ser preservado, basta:

sort test1.csv test2.csv | uniq -u

sort test1.csv test2.csv: mescla e classifica test1.csvetest2.csv
uniq -u: imprime apenas as linhas que não possuem duplicatas

Diferença de dois arquivos grandes

Responder1

Responder2

Responder3

Responder4

informação relacionada