
Извините, я новичок в Linux и не уверен, насколько хорошо bash справится с поставленной задачей.
Я хочу объединить значения столбца 2, если значения столбца 1 и столбца 3 идентичны. В этом случае, если есть одинаковые описания ошибок и один и тот же продавец, я хочу объединить поля RefNo запятой.
Error Desc|RefNo|Merchant
===================================
Category code invalid|03077|merchanta
Category code invalid|09877|merchanta
Invalid ID|12345|merchanta
Invalid ID|07323|merchantc
Invalid ID|03523|merchantc
No valid reason|78653|merchantb
Ожидаемый результат:
Error Desc|RefNo|Merchant
===================================
Category code invalid|03077,09877|merchanta
Invalid ID|12345|merchanta
Invalid ID|07323,03523|merchantc
No valid reason|78653|merchantb
Я нашел похожие посты, но он удаляет дубликаты, а я не хочу удалять и объединять столбец 2. Сохранение уникальных строк на основе информации из 2 из 3 столбцов.
решение1
С помощью GNU datamash
вы можете сделать:
datamash -t'|' groupby 1,3 collapse 2 < <(tail -n+3 file)
Выход:
Category code invalid|merchanta|03077,09877
Invalid ID|merchanta|12345
Invalid ID|merchantc|07323,03523
No valid reason|merchnatb|78653
Это группирует по первому и третьему полю и сворачивает значения второго поля. Используется tail -n+3
для пропуска двух строк заголовка.
Вы можете awk
поменять местами второй и третий столбцы вывода и head
добавить строки заголовка:
{
head -n2 file
datamash -t'|' groupby 1,3 collapse 2 < <(tail -n+3 file) |
awk 'BEGIN{OFS=FS="|"}{print $1,$3,$2}'
}
Выход:
Error Desc|RefNo|Merchant
===================================
Category code invalid|03077,09877|merchanta
Invalid ID|12345|merchanta
Invalid ID|07323,03523|merchantc
No valid reason|78653|merchnatb
решение2
Я, возможно, что-то упускаю из виду — наверное, можно сделать это короче — но это работает:
awk '
BEGIN { FS="|"; OFS="|" }
NR <= 2
NR > 2 {
seen_desc[$1]++
seen_merc[$3]++
if (ref[$1,$3] == "")
ref[$1,$3] = $2
else
ref[$1,$3] = ref[$1,$3] "," $2
}
END {
for (desc in seen_desc) {
for (merc in seen_merc) {
if (ref[desc,merc] != "") {
print desc, ref[desc,merc], merc
}
}
}
}'