Объединение двух CSV-файлов, сравниваемых только по определенному столбцу

Question

Очень просто с awk:

$ awk -F'|' 'NR == FNR {old[$2]; next} !($2 in old)' old.csv new.csv
"glider"|"person"|"airport"
"glider"|"person2"|"airport"

Это сохранит второе поле файла old.csv в массиве с именем «old», а затем для файла new.csv будут выведены записи, в которых второе поле отсутствует в массиве «old».

Правда, это не будет учитывать символы вертикальной черты внутри кавычек. Для этого мне нравится модуль csv в ruby:

ruby -rcsv  -e '
  old_col2 = []
  old_data = CSV.foreach("./old.csv", :col_sep => "|") do |row|
    old_col2 << row[1]
  end

  CSV.foreach("./new.csv", :col_sep => "|") do |row|
    if not old_col2.include?(row[1])
      puts CSV.generate_line(row, :col_sep => "|", :force_quotes => true)
    end
  end
'

Answer 1

Очень просто с awk:

$ awk -F'|' 'NR == FNR {old[$2]; next} !($2 in old)' old.csv new.csv
"glider"|"person"|"airport"
"glider"|"person2"|"airport"

Это сохранит второе поле файла old.csv в массиве с именем «old», а затем для файла new.csv будут выведены записи, в которых второе поле отсутствует в массиве «old».

Правда, это не будет учитывать символы вертикальной черты внутри кавычек. Для этого мне нравится модуль csv в ruby:

ruby -rcsv  -e '
  old_col2 = []
  old_data = CSV.foreach("./old.csv", :col_sep => "|") do |row|
    old_col2 << row[1]
  end

  CSV.foreach("./new.csv", :col_sep => "|") do |row|
    if not old_col2.include?(row[1])
      puts CSV.generate_line(row, :col_sep => "|", :force_quotes => true)
    end
  end
'

Объединение двух CSV-файлов, сравниваемых только по определенному столбцу

решение1

Связанный контент