awk сравнивает массив с массивом на предыдущей строке

Question

Входные данные, указанные как URL в комментарии, разделены табуляцией. Это означает, что мы можем проанализировать его первое поле, разделенное табуляцией, как своего рода «ключ» для сравнения с другими строками. Мы делаемнетнеобходимо учитывать слова, разделенные пробелами в первом поле, но можно обрабатывать все первое поле как единое целое.

BEGIN { OFS = FS = "\t" }

{
    count = $(NF - 1)
    key = $1
}

key != previous {
    if (previous != "")
        print previous, sum

    sum = 0
}

{
    sum += count
    previous = key
}

END {
    if (previous != "")
        print previous, sum
}

Эта awkпрограмма разбирает поле "count" (предпоследнее поле) в count, затем использует первое поле как "ключ" для последующего сравнения с ключом предыдущей строки. Это первый блок после блока BEGIN(который просто устанавливает разделители ввода и вывода).

Если ключ отличается от ключа в предыдущей строке, это означает, что мы сейчас смотрим на какой-то другой набор слов. Выведите ключ и сумму предыдущей строки и сбросьте сумму.

Для всех строк увеличиваем сумму на число из этой строки и обновляем previous(теперь мы закончили с этой строкой, поэтому ее значение keyравно значению следующей previous).

В конце выведите информацию для последней строки данных.

Вы можете запустить это с помощью awk -f script.awk inputfile.

В качестве «однострочника»:

awk -F '\t' 'BEGIN{OFS=FS} {c=$(NF-1);k=$1} k!=p {if(p!="")print p,s;s=0} {s+=c;p=k} END {if(p!="") print p,s}' file

Answer 1