Объединение нескольких столбцов из разных файлов с помощью awk

Question 1

$ cat tst.awk
BEGIN { FS=OFS="\t" }
{ datasets[$1]; fnames[FILENAME]; vals[$1,FILENAME] = $2 }
END {
    printf "%s", "dataset"
    for (fname in fnames) {
        printf "%s%s", OFS, fname
    }
    print ""
    for (dataset in datasets) {
        printf "%s", dataset
        for (fname in fnames) {
            printf "%s%s", OFS, vals[dataset,fname]
        }
        print ""
    }
}

$ tail -n +1 file?
==> file1 <==
a       1
b       2
c       3

==> file2 <==
a       2
c       3

$ awk -f tst.awk file1 file2
dataset file1   file2
a       1       2
b       2
c       3       3

Добавьте в список столько файлов, сколько захотите.

Answer

$ cat tst.awk
BEGIN { FS=OFS="\t" }
{ datasets[$1]; fnames[FILENAME]; vals[$1,FILENAME] = $2 }
END {
    printf "%s", "dataset"
    for (fname in fnames) {
        printf "%s%s", OFS, fname
    }
    print ""
    for (dataset in datasets) {
        printf "%s", dataset
        for (fname in fnames) {
            printf "%s%s", OFS, vals[dataset,fname]
        }
        print ""
    }
}

$ tail -n +1 file?
==> file1 <==
a       1
b       2
c       3

==> file2 <==
a       2
c       3

$ awk -f tst.awk file1 file2
dataset file1   file2
a       1       2
b       2
c       3       3

Добавьте в список столько файлов, сколько захотите.

Question 2

С помощью join (GNU coreutils) 8.30и «замены процесса» вы можете попробовать

join -a1 -a2 -t"    " -oauto  -e " " <(join -a1 -a2 -t" " -oauto  -e "" file[12]) <(join -a1 -a2 -t"    " -oauto  -e " " file[34])
abc 1   2        
def 2       1    
ghi 3   3   2   3
jkl         4   4

Параметры -tимеют <TAB>символьное значение.

Answer

С помощью join (GNU coreutils) 8.30и «замены процесса» вы можете попробовать

join -a1 -a2 -t"    " -oauto  -e " " <(join -a1 -a2 -t" " -oauto  -e "" file[12]) <(join -a1 -a2 -t"    " -oauto  -e " " file[34])
abc 1   2        
def 2       1    
ghi 3   3   2   3
jkl         4   4

Параметры -tимеют <TAB>символьное значение.

Question 3

Совет на данный момент: если понадобится, используйте код позже.

Я бы сохранил три массива, пока вы читаете все файлы.

(a) Для каждого нового файла — хэш-список имен файлов.
(b) Для каждого нового набора данных — хэш-список из $1.
(c) Для каждой строки — хэш-список значений.

FNR == 1 { ++htFile[FILENAME]; }
! ($1 in htSet) { ++htSet[$1]; }
{ htVal [FILENAME, $1] = $2; }

В функции End выполните итерацию по htFile и htSet.

function Table (r, c, buf) {
    buf = "dataset";
    for (c in htFile)
        buf = sprint ("%s\t%s", buf, htFile[c]);
    print buf;
    for (r in htSet) {
        buf = "";
        for (c in htFile)
            buf = sprint ("%s\t%s", buf, htVal[c, r]);
        print substr (buf, 2);
    }
}
END { Table( ); }

Это не сохраняет порядок файлов и наборов данных в выходной таблице. Если это имеет значение, вы можете сохранить упорядоченную версию таблиц и выполнить итерацию в исходном порядке.

Answer

Совет на данный момент: если понадобится, используйте код позже.

Я бы сохранил три массива, пока вы читаете все файлы.

(a) Для каждого нового файла — хэш-список имен файлов.
(b) Для каждого нового набора данных — хэш-список из $1.
(c) Для каждой строки — хэш-список значений.

FNR == 1 { ++htFile[FILENAME]; }
! ($1 in htSet) { ++htSet[$1]; }
{ htVal [FILENAME, $1] = $2; }

В функции End выполните итерацию по htFile и htSet.

function Table (r, c, buf) {
    buf = "dataset";
    for (c in htFile)
        buf = sprint ("%s\t%s", buf, htFile[c]);
    print buf;
    for (r in htSet) {
        buf = "";
        for (c in htFile)
            buf = sprint ("%s\t%s", buf, htVal[c, r]);
        print substr (buf, 2);
    }
}
END { Table( ); }

Это не сохраняет порядок файлов и наборов данных в выходной таблице. Если это имеет значение, вы можете сохранить упорядоченную версию таблиц и выполнить итерацию в исходном порядке.

Объединение нескольких столбцов из разных файлов с помощью awk

решение1

решение2

решение3

Связанный контент