Zusammenführen von zwei CSV-Dateien, die nur anhand einer bestimmten Spalte verglichen werden

Question

Ganz einfach mit awk:

$ awk -F'|' 'NR == FNR {old[$2]; next} !($2 in old)' old.csv new.csv
"glider"|"person"|"airport"
"glider"|"person2"|"airport"

Dadurch wird das zweite Feld der Datei „old.csv“ im Array mit dem Namen „old“ gespeichert. Anschließend werden für die Datei „new.csv“ Datensätze gedruckt, bei denen sich das zweite Feld nicht im Array „old“ befindet.

Es stimmt, dass dabei keine Pipe-Zeichen in Anführungszeichen berücksichtigt werden. Dafür gefällt mir Rubys CSV-Modul:

ruby -rcsv  -e '
  old_col2 = []
  old_data = CSV.foreach("./old.csv", :col_sep => "|") do |row|
    old_col2 << row[1]
  end

  CSV.foreach("./new.csv", :col_sep => "|") do |row|
    if not old_col2.include?(row[1])
      puts CSV.generate_line(row, :col_sep => "|", :force_quotes => true)
    end
  end
'

Answer 1

Ganz einfach mit awk:

$ awk -F'|' 'NR == FNR {old[$2]; next} !($2 in old)' old.csv new.csv
"glider"|"person"|"airport"
"glider"|"person2"|"airport"

Dadurch wird das zweite Feld der Datei „old.csv“ im Array mit dem Namen „old“ gespeichert. Anschließend werden für die Datei „new.csv“ Datensätze gedruckt, bei denen sich das zweite Feld nicht im Array „old“ befindet.

Es stimmt, dass dabei keine Pipe-Zeichen in Anführungszeichen berücksichtigt werden. Dafür gefällt mir Rubys CSV-Modul:

ruby -rcsv  -e '
  old_col2 = []
  old_data = CSV.foreach("./old.csv", :col_sep => "|") do |row|
    old_col2 << row[1]
  end

  CSV.foreach("./new.csv", :col_sep => "|") do |row|
    if not old_col2.include?(row[1])
      puts CSV.generate_line(row, :col_sep => "|", :force_quotes => true)
    end
  end
'

Zusammenführen von zwei CSV-Dateien, die nur anhand einer bestimmten Spalte verglichen werden

Antwort1

verwandte Informationen