Дедупликация с помощью awk в командной строке и скрипте

Question 1

За пределами брекетов !a[$1]++находитсясостояние, который запускает действие по умолчанию, {print}если его значение равно true (не нулю).

Внутри брекетов {{!a[$1]++}}находитсядействиечто оценивается безусловно без побочных эффектов. Уберите скобки:

#!/bin/awk -f

BEGIN {
    FS=","
}

!a[$1]++

Answer

За пределами брекетов !a[$1]++находитсясостояние, который запускает действие по умолчанию, {print}если его значение равно true (не нулю).

Внутри брекетов {{!a[$1]++}}находитсядействиечто оценивается безусловно без побочных эффектов. Уберите скобки:

#!/bin/awk -f

BEGIN {
    FS=","
}

!a[$1]++

Question 2

@steeldriver's awk ответэто правильно и, вероятно, это все, что вам нужно, но если ваши входные данные станут большими, они могут исчерпать память и/или работать относительно медленно, и в этом случае следующий подход декорирования/сортировки/декорирования будет работать и дальше:

nl -w1 -s, file |       # Decorate by prefixing with line numbers
sort -ut, -k2,2 |       # Sort uniquely by the real key field
sort -nt, -k1,1 |       # Sort whats left by the line numbers we added
cut -d, -f2-            # Undecorate by removing the line numbers

Answer

@steeldriver's awk ответэто правильно и, вероятно, это все, что вам нужно, но если ваши входные данные станут большими, они могут исчерпать память и/или работать относительно медленно, и в этом случае следующий подход декорирования/сортировки/декорирования будет работать и дальше:

nl -w1 -s, file |       # Decorate by prefixing with line numbers
sort -ut, -k2,2 |       # Sort uniquely by the real key field
sort -nt, -k1,1 |       # Sort whats left by the line numbers we added
cut -d, -f2-            # Undecorate by removing the line numbers

Дедупликация с помощью awk в командной строке и скрипте

Командная строка

Скрипт Awk

решение1

решение2

Связанный контент