두 개의 큰 파일의 차이점

Question 1

다음과 같은 직업인 것 같습니다 comm.

$ comm -3 <(sort test1.csv) <(sort test2.csv)
100,300,500,700
    100,4,2,1,7
    21,22,23,24,25
    50,25,700,5

설명된 대로 man comm:

   -1     suppress column 1 (lines unique to FILE1)

   -2     suppress column 2 (lines unique to FILE2)

   -3     suppress column 3 (lines that appear in both files)

즉, -3파일 중 하나에 고유한 줄만 인쇄된다는 의미입니다. 그러나 해당 항목은 발견된 파일에 따라 들여쓰기됩니다. 탭을 제거하려면 다음을 사용하십시오.

$ comm -3 <(sort test1.csv) <(sort test2.csv) | tr -d '\t'
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

이 경우 파일을 정렬할 필요조차 없으며 위의 내용을 다음과 같이 단순화할 수 있습니다.

comm -3 test1.csv test2.csv | tr -d '\t' > difference.csv

Answer

다음과 같은 직업인 것 같습니다 comm.

$ comm -3 <(sort test1.csv) <(sort test2.csv)
100,300,500,700
    100,4,2,1,7
    21,22,23,24,25
    50,25,700,5

설명된 대로 man comm:

   -1     suppress column 1 (lines unique to FILE1)

   -2     suppress column 2 (lines unique to FILE2)

   -3     suppress column 3 (lines that appear in both files)

즉, -3파일 중 하나에 고유한 줄만 인쇄된다는 의미입니다. 그러나 해당 항목은 발견된 파일에 따라 들여쓰기됩니다. 탭을 제거하려면 다음을 사용하십시오.

$ comm -3 <(sort test1.csv) <(sort test2.csv) | tr -d '\t'
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

이 경우 파일을 정렬할 필요조차 없으며 위의 내용을 다음과 같이 단순화할 수 있습니다.

comm -3 test1.csv test2.csv | tr -d '\t' > difference.csv

Question 2

프로세스 대체 grep와 함께 사용 :bash

$ cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv)
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

출력을 다음과 같이 저장하려면 results.csv:

cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv) >results.csv

<()은bash프로세스 대체 패턴
grep -vFf test2.csv test1.csv유일한 줄을 찾을 것입니다test1.csv
grep -vFf test1.csv test2.csv유일한 줄을 찾을 것입니다test2.csv
마지막으로 결과를 요약하자면cat

아니면올리가 제안했어요, 명령 그룹화를 사용할 수도 있습니다.

$ { grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv; }
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

또는 둘 다 STDOUT에 쓰고 있으므로 차례로 실행하면 최종적으로 추가됩니다.

$ grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Answer

프로세스 대체 grep와 함께 사용 :bash

$ cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv)
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

출력을 다음과 같이 저장하려면 results.csv:

cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv) >results.csv

<()은bash프로세스 대체 패턴
grep -vFf test2.csv test1.csv유일한 줄을 찾을 것입니다test1.csv
grep -vFf test1.csv test2.csv유일한 줄을 찾을 것입니다test2.csv
마지막으로 결과를 요약하자면cat

아니면올리가 제안했어요, 명령 그룹화를 사용할 수도 있습니다.

$ { grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv; }
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

또는 둘 다 STDOUT에 쓰고 있으므로 차례로 실행하면 최종적으로 추가됩니다.

$ grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Question 3

행 순서가 관련이 없으면 awk또는 다음을 사용하십시오 perl.

awk '{seen[$0]++} END {for (i in seen) {if (seen[i] == 1) {print i}}}' 1.csv 2.csv

grep공통 라인을 가져와서 필터링하려면 다음을 사용하세요 .

grep -hxvFf <(grep -Fxf 1.csv 2.csv) 1.csv 2.csv

내부 grep은 공통 라인을 얻은 다음 외부 grep은 이러한 공통 라인과 일치하지 않는 라인을 찾습니다.

Answer

행 순서가 관련이 없으면 awk또는 다음을 사용하십시오 perl.

awk '{seen[$0]++} END {for (i in seen) {if (seen[i] == 1) {print i}}}' 1.csv 2.csv

grep공통 라인을 가져와서 필터링하려면 다음을 사용하세요 .

grep -hxvFf <(grep -Fxf 1.csv 2.csv) 1.csv 2.csv

내부 grep은 공통 라인을 얻은 다음 외부 grep은 이러한 공통 라인과 일치하지 않는 라인을 찾습니다.

Question 4

순서를 유지할 필요가 없으므로 간단히 다음과 같이 하십시오.

sort test1.csv test2.csv | uniq -u

sort test1.csv test2.csv: 병합 및 test1.csv정렬test2.csv
uniq -u: 중복된 내용이 없는 줄만 인쇄합니다.

Answer

순서를 유지할 필요가 없으므로 간단히 다음과 같이 하십시오.

sort test1.csv test2.csv | uniq -u

sort test1.csv test2.csv: 병합 및 test1.csv정렬test2.csv
uniq -u: 중복된 내용이 없는 줄만 인쇄합니다.

두 개의 큰 파일의 차이점

답변1

답변2

답변3

답변4

관련 정보