2つの大きなファイルの違い

Question 1

次のような仕事に向いているようですcomm:

$ comm -3 <(sort test1.csv) <(sort test2.csv)
100,300,500,700
    100,4,2,1,7
    21,22,23,24,25
    50,25,700,5

次のように説明されていますman comm:

   -1     suppress column 1 (lines unique to FILE1)

   -2     suppress column 2 (lines unique to FILE2)

   -3     suppress column 3 (lines that appear in both files)

つまり、-3ファイルの 1 つに固有の行のみが印刷されます。ただし、それらの行は、どのファイルで見つかったかに応じてインデントされます。タブを削除するには、次のようにします。

$ comm -3 <(sort test1.csv) <(sort test2.csv) | tr -d '\t'
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

この場合、ファイルを並べ替える必要はなく、上記の手順を次のように簡略化できます。

comm -3 test1.csv test2.csv | tr -d '\t' > difference.csv

Answer

次のような仕事に向いているようですcomm:

$ comm -3 <(sort test1.csv) <(sort test2.csv)
100,300,500,700
    100,4,2,1,7
    21,22,23,24,25
    50,25,700,5

次のように説明されていますman comm:

   -1     suppress column 1 (lines unique to FILE1)

   -2     suppress column 2 (lines unique to FILE2)

   -3     suppress column 3 (lines that appear in both files)

つまり、-3ファイルの 1 つに固有の行のみが印刷されます。ただし、それらの行は、どのファイルで見つかったかに応じてインデントされます。タブを削除するには、次のようにします。

$ comm -3 <(sort test1.csv) <(sort test2.csv) | tr -d '\t'
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

この場合、ファイルを並べ替える必要はなく、上記の手順を次のように簡略化できます。

comm -3 test1.csv test2.csv | tr -d '\t' > difference.csv

Question 2

プロセス置換grepでの使用:bash

$ cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv)
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

出力を次のように保存しますresults.csv:

cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv) >results.csv

<()それはbashプロセス置換パターン
grep -vFf test2.csv test1.csvのみに固有の行を見つけますtest1.csv
grep -vFf test1.csv test2.csvのみに固有の行を見つけますtest2.csv
最後に結果をまとめるとcat

またはオリは提案したコマンドのグループ化も使用できます。

$ { grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv; }
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

または、両方が STDOUT に書き込まれるため、最終的に追加されるので、次々に実行します。

$ grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Answer

プロセス置換grepでの使用:bash

$ cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv)
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

出力を次のように保存しますresults.csv:

cat <(grep -vFf test2.csv test1.csv) <(grep -vFf test1.csv test2.csv) >results.csv

<()それはbashプロセス置換パターン
grep -vFf test2.csv test1.csvのみに固有の行を見つけますtest1.csv
grep -vFf test1.csv test2.csvのみに固有の行を見つけますtest2.csv
最後に結果をまとめるとcat

またはオリは提案したコマンドのグループ化も使用できます。

$ { grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv; }
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

または、両方が STDOUT に書き込まれるため、最終的に追加されるので、次々に実行します。

$ grep -vFf test2.csv test1.csv; grep -vFf test1.csv test2.csv
100,300,500,700
100,4,2,1,7
21,22,23,24,25
50,25,700,5

Question 3

行の順序が関係ない場合は、awkまたはを使用しますperl。

awk '{seen[$0]++} END {for (i in seen) {if (seen[i] == 1) {print i}}}' 1.csv 2.csv

grep共通行を取得してフィルタリングするには、次を使用します。

grep -hxvFf <(grep -Fxf 1.csv 2.csv) 1.csv 2.csv

内部 grep は共通行を取得し、外部 grep はこれらの共通行に一致しない行を検索します。

Answer

行の順序が関係ない場合は、awkまたはを使用しますperl。

awk '{seen[$0]++} END {for (i in seen) {if (seen[i] == 1) {print i}}}' 1.csv 2.csv

grep共通行を取得してフィルタリングするには、次を使用します。

grep -hxvFf <(grep -Fxf 1.csv 2.csv) 1.csv 2.csv

内部 grep は共通行を取得し、外部 grep はこれらの共通行に一致しない行を検索します。

Question 4

順序を維持する必要がないので、次のようにします。

sort test1.csv test2.csv | uniq -u

sort test1.csv test2.csv: マージとソートを行いtest1.csv、test2.csv
uniq -u: 重複のない行のみを出力します

Answer

順序を維持する必要がないので、次のようにします。

sort test1.csv test2.csv | uniq -u

sort test1.csv test2.csv: マージとソートを行いtest1.csv、test2.csv
uniq -u: 重複のない行のみを出力します

2つの大きなファイルの違い

答え1

答え2

答え3

答え4

関連情報