Разница двух больших файлов

Question 1

Похоже на работу для comm:

$ comm -3 <(sort test1.csv) <(sort test2.csv)
100,300,500,700
    100,4,2,1,7
    21,22,23,24,25
    50,25,700,5

Как объяснено в man comm:

   -1     suppress column 1 (lines unique to FILE1)

   -2     suppress column 2 (lines unique to FILE2)

   -3     suppress column 3 (lines that appear in both files)

Итак, это -3означает, что будут напечатаны только строки, уникальные для одного из файлов. Однако они имеют отступ в соответствии с тем, в каком файле они были найдены. Чтобы удалить вкладку, используйте:

$ comm -3 <(sort test1.csv) <(sort test2.csv) | tr -d '\t'
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

В этом случае вам даже не нужно сортировать файлы, и вы можете упростить вышеприведенный код до:

comm -3 test1.csv test2.csv | tr -d '\t' > difference.csv

Answer

Похоже на работу для comm:

$ comm -3 <(sort test1.csv) <(sort test2.csv)
100,300,500,700
    100,4,2,1,7
    21,22,23,24,25
    50,25,700,5

Как объяснено в man comm:

   -1     suppress column 1 (lines unique to FILE1)

   -2     suppress column 2 (lines unique to FILE2)

   -3     suppress column 3 (lines that appear in both files)

Итак, это -3означает, что будут напечатаны только строки, уникальные для одного из файлов. Однако они имеют отступ в соответствии с тем, в каком файле они были найдены. Чтобы удалить вкладку, используйте:

$ comm -3 <(sort test1.csv) <(sort test2.csv) | tr -d '\t'
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

В этом случае вам даже не нужно сортировать файлы, и вы можете упростить вышеприведенный код до:

comm -3 test1.csv test2.csv | tr -d '\t' > difference.csv

Question 2

Использование grepс bashзаменой процесса:

$ cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv)
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Чтобы сохранить вывод как results.csv:

cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv) >results.csv

<()этоbashпроцесс замещения шаблон
grep -vFf test2.csv test1.csvнайдёт строки, уникальные только дляtest1.csv
grep -vFf test1.csv test2.csvнайдёт строки, уникальные только дляtest2.csv
Наконец, мы подводим итогиcat

Или какОли предложил, вы также можете использовать группировку команд:

$ { grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv; }
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Или просто запустите их одну за другой, поскольку они оба пишут в STDOUT, то в конечном итоге будут добавлены:

$ grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Answer

Использование grepс bashзаменой процесса:

$ cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv)
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Чтобы сохранить вывод как results.csv:

cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv) >results.csv

<()этоbashпроцесс замещения шаблон
grep -vFf test2.csv test1.csvнайдёт строки, уникальные только дляtest1.csv
grep -vFf test1.csv test2.csvнайдёт строки, уникальные только дляtest2.csv
Наконец, мы подводим итогиcat

Или какОли предложил, вы также можете использовать группировку команд:

$ { grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv; }
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Или просто запустите их одну за другой, поскольку они оба пишут в STDOUT, то в конечном итоге будут добавлены:

$ grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Question 3

Если порядок строк не важен, используйте awkили perl:

awk '{seen[$0]++} END {for (i in seen) {if (seen[i] == 1) {print i}}}' 1.csv 2.csv

Используйте grepдля получения общих строк и их фильтрации:

grep -hxvFf <(grep -Fxf 1.csv 2.csv) 1.csv 2.csv

Внутренний grep находит общие строки, затем внешний grep находит строки, которые не соответствуют этим общим строкам.

Answer

Если порядок строк не важен, используйте awkили perl:

awk '{seen[$0]++} END {for (i in seen) {if (seen[i] == 1) {print i}}}' 1.csv 2.csv

Используйте grepдля получения общих строк и их фильтрации:

grep -hxvFf <(grep -Fxf 1.csv 2.csv) 1.csv 2.csv

Внутренний grep находит общие строки, затем внешний grep находит строки, которые не соответствуют этим общим строкам.

Question 4

Поскольку порядок сохранять не нужно, просто:

sort test1.csv test2.csv | uniq -u

sort test1.csv test2.csv: объединяет и сортирует test1.csvиtest2.csv
uniq -u: печатает только те строки, которые не имеют дубликатов

Answer

Поскольку порядок сохранять не нужно, просто:

sort test1.csv test2.csv | uniq -u

sort test1.csv test2.csv: объединяет и сортирует test1.csvиtest2.csv
uniq -u: печатает только те строки, которые не имеют дубликатов

Разница двух больших файлов

решение1

решение2

решение3

решение4

Связанный контент