Diferencia de dos archivos grandes

Question 1

Suena como un trabajo para comm:

$ comm -3 <(sort test1.csv) <(sort test2.csv)
100,300,500,700
    100,4,2,1,7
    21,22,23,24,25
    50,25,700,5

Como se explica en man comm:

   -1     suppress column 1 (lines unique to FILE1)

   -2     suppress column 2 (lines unique to FILE2)

   -3     suppress column 3 (lines that appear in both files)

Entonces, esto -3significa que solo se imprimirán las líneas que sean exclusivas de uno de los archivos. Sin embargo, tienen sangría según el archivo en el que se encontraron. Para eliminar la pestaña, utilice:

$ comm -3 <(sort test1.csv) <(sort test2.csv) | tr -d '\t'
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

En este caso, ni siquiera necesitas ordenar los archivos y puedes simplificar lo anterior para:

comm -3 test1.csv test2.csv | tr -d '\t' > difference.csv

Answer

Suena como un trabajo para comm:

$ comm -3 <(sort test1.csv) <(sort test2.csv)
100,300,500,700
    100,4,2,1,7
    21,22,23,24,25
    50,25,700,5

Como se explica en man comm:

   -1     suppress column 1 (lines unique to FILE1)

   -2     suppress column 2 (lines unique to FILE2)

   -3     suppress column 3 (lines that appear in both files)

Entonces, esto -3significa que solo se imprimirán las líneas que sean exclusivas de uno de los archivos. Sin embargo, tienen sangría según el archivo en el que se encontraron. Para eliminar la pestaña, utilice:

$ comm -3 <(sort test1.csv) <(sort test2.csv) | tr -d '\t'
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

En este caso, ni siquiera necesitas ordenar los archivos y puedes simplificar lo anterior para:

comm -3 test1.csv test2.csv | tr -d '\t' > difference.csv

Question 2

Usando grepcon bashsustitución de procesos:

$ cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv)
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Para guardar la salida como results.csv:

cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv) >results.csv

<()es elbashpatrón de sustitución de procesos
grep -vFf test2.csv test1.csvencontrará las líneas únicas para solotest1.csv
grep -vFf test1.csv test2.csvencontrará las líneas únicas para solotest2.csv
Finalmente estamos resumiendo los resultados porcat

o comooli sugirió, también puedes usar la agrupación de comandos:

$ { grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv; }
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

O simplemente ejecute uno tras otro, ya que ambos escriben en STDOUT y finalmente se agregarán:

$ grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Answer

Usando grepcon bashsustitución de procesos:

$ cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv)
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Para guardar la salida como results.csv:

cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv) >results.csv

<()es elbashpatrón de sustitución de procesos
grep -vFf test2.csv test1.csvencontrará las líneas únicas para solotest1.csv
grep -vFf test1.csv test2.csvencontrará las líneas únicas para solotest2.csv
Finalmente estamos resumiendo los resultados porcat

o comooli sugirió, también puedes usar la agrupación de comandos:

$ { grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv; }
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

O simplemente ejecute uno tras otro, ya que ambos escriben en STDOUT y finalmente se agregarán:

$ grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Question 3

Si el orden de las filas no es relevante, utilice awko perl:

awk '{seen[$0]++} END {for (i in seen) {if (seen[i] == 1) {print i}}}' 1.csv 2.csv

Úselo greppara obtener las líneas comunes y filtrarlas:

grep -hxvFf <(grep -Fxf 1.csv 2.csv) 1.csv 2.csv

El grep interno obtiene las líneas comunes, luego el grep externo encuentra líneas que no coinciden con estas líneas comunes.

Answer

Si el orden de las filas no es relevante, utilice awko perl:

awk '{seen[$0]++} END {for (i in seen) {if (seen[i] == 1) {print i}}}' 1.csv 2.csv

Úselo greppara obtener las líneas comunes y filtrarlas:

grep -hxvFf <(grep -Fxf 1.csv 2.csv) 1.csv 2.csv

El grep interno obtiene las líneas comunes, luego el grep externo encuentra líneas que no coinciden con estas líneas comunes.

Question 4

Dado que no es necesario conservar el orden, simplemente:

sort test1.csv test2.csv | uniq -u

sort test1.csv test2.csv: fusiona y ordena test1.csvytest2.csv
uniq -u: imprime solo las líneas que no tienen duplicados

Answer

Dado que no es necesario conservar el orden, simplemente:

sort test1.csv test2.csv | uniq -u

sort test1.csv test2.csv: fusiona y ordena test1.csvytest2.csv
uniq -u: imprime solo las líneas que no tienen duplicados

Diferencia de dos archivos grandes

Respuesta1

Respuesta2

Respuesta3

Respuesta4

información relacionada