UNIX-Spalten einfügen und Nullen für alle fehlenden Werte einfügen

Question 1

Wenn die Spaltenreihenfolge wichtig ist, d. h. Zahlen aus derselben Datei in derselben Spalte bleiben sollen, müssen Sie beim Lesen der verschiedenen Dateien Auffüllungen hinzufügen. Hier ist eine Möglichkeit, die mit GNU awk funktioniert:

zusammenführen.awk

# Set k to be a shorthand for the key
{ k = $1 SUBSEP $2 }

# First element with this key, add zeros to align it with other rows
!(k in h) {
  for(i=1; i<=ARGIND-1; i++)
    h[k] = h[k] OFS 0 
}

# Remember the data element
{ h[k] = h[k] OFS $3 }

# Before moving to the next file, ensure that all rows are aligned
ENDFILE {
  for(k in h) {
    if(split(h[k], a) < ARGIND)
      h[k] = h[k] OFS 0
  }
}

# Print out the collected data
END {
  for(k in h) {
    split(k, a, SUBSEP)
    print a[1], a[2], h[k]
  }
}

Hier sind einige Testdateien: f1, f2, f3und f4:

$ tail -n+1 f[1-4]
==> f1 <==
xyz desc1 21
uvw desc2 22
pqr desc3 23

==> f2 <==
xyz desc1 56
uvw desc2 57

==> f3 <==
xyz desc1 87
uvw desc2 88

==> f4 <==
xyz desc1 11
uvw desc2 12
pqr desc3 13
stw desc1 14
arg desc2 15

Prüfung 1

awk -f merge.awk f[1-4] | column -t

Ausgabe:

pqr  desc3  23  0   0   13
uvw  desc2  22  57  88  12
stw  desc1  0   0   0   14
arg  desc2  0   0   0   15
xyz  desc1  21  56  87  11

Prüfung 2

awk -f merge.awk f2 f3 f4 f1 | column -t

Ausgabe:

pqr  desc3  0   0   13  23
uvw  desc2  57  88  12  22
stw  desc1  0   0   14  0
arg  desc2  0   0   15  0
xyz  desc1  56  87  11  21

Bearbeiten:

Wenn die Ausgabe tabulatorgetrennt sein soll, legen Sie den Ausgabefeldtrenner entsprechend fest:

awk -f merge.awk OFS='\t' f[1-4]

Answer

Wenn die Spaltenreihenfolge wichtig ist, d. h. Zahlen aus derselben Datei in derselben Spalte bleiben sollen, müssen Sie beim Lesen der verschiedenen Dateien Auffüllungen hinzufügen. Hier ist eine Möglichkeit, die mit GNU awk funktioniert:

zusammenführen.awk

# Set k to be a shorthand for the key
{ k = $1 SUBSEP $2 }

# First element with this key, add zeros to align it with other rows
!(k in h) {
  for(i=1; i<=ARGIND-1; i++)
    h[k] = h[k] OFS 0 
}

# Remember the data element
{ h[k] = h[k] OFS $3 }

# Before moving to the next file, ensure that all rows are aligned
ENDFILE {
  for(k in h) {
    if(split(h[k], a) < ARGIND)
      h[k] = h[k] OFS 0
  }
}

# Print out the collected data
END {
  for(k in h) {
    split(k, a, SUBSEP)
    print a[1], a[2], h[k]
  }
}

Hier sind einige Testdateien: f1, f2, f3und f4:

$ tail -n+1 f[1-4]
==> f1 <==
xyz desc1 21
uvw desc2 22
pqr desc3 23

==> f2 <==
xyz desc1 56
uvw desc2 57

==> f3 <==
xyz desc1 87
uvw desc2 88

==> f4 <==
xyz desc1 11
uvw desc2 12
pqr desc3 13
stw desc1 14
arg desc2 15

Prüfung 1

awk -f merge.awk f[1-4] | column -t

Ausgabe:

pqr  desc3  23  0   0   13
uvw  desc2  22  57  88  12
stw  desc1  0   0   0   14
arg  desc2  0   0   0   15
xyz  desc1  21  56  87  11

Prüfung 2

awk -f merge.awk f2 f3 f4 f1 | column -t

Ausgabe:

pqr  desc3  0   0   13  23
uvw  desc2  57  88  12  22
stw  desc1  0   0   14  0
arg  desc2  0   0   15  0
xyz  desc1  56  87  11  21

Bearbeiten:

Wenn die Ausgabe tabulatorgetrennt sein soll, legen Sie den Ausgabefeldtrenner entsprechend fest:

awk -f merge.awk OFS='\t' f[1-4]

Question 2

Versuche dies:

$ awk '
    FNR == NR { a[$1,$2] = $3; next }
    {
        print $0,(($1,$2) in a) ? a[$1,$2] : "0"
    }
' file2 file1
xyz   desc1   12 56
uvw   desc2   55 88
pqr   desc3   12 0

Answer

Versuche dies:

$ awk '
    FNR == NR { a[$1,$2] = $3; next }
    {
        print $0,(($1,$2) in a) ? a[$1,$2] : "0"
    }
' file2 file1
xyz   desc1   12 56
uvw   desc2   55 88
pqr   desc3   12 0

Question 3

Das ist zwar etwas lang, funktioniert aber:

$ cat file1 file2 | awk '{a[$1FS$2]=a[$1FS$2]FS$3; b[$1FS$2]++} END {for (i in b) max=max<b[i]?b[i]:max; for (i in a) {printf "%s %s", i, a[i]; for (j=b[i]; j<max; j++) printf "%s0", FS  printf "%s", RS}}' 
pqr desc3  12 0
xyz desc1  12 56
uvw desc2  55 88

Der Awk-Block kann wie folgt formatiert werden:

awk '{a[$1FS$2]=a[$1FS$2]FS$3; b[$1FS$2]++}
      END {for (i in b) max=max<b[i]?b[i]:max
          for (i in a) {printf "%s%s%s", i, FS, a[i]
                        for (j=b[i]; j<max; j++) printf "%s0", FS
                        printf "%s", RS}
          }'

Die Idee besteht darin, alle Dateien auszudrucken und dann die wiederholten Werte im Array abzufangen a[$1 $2]. b[$1 $2]Enthält außerdem die Häufigkeit, mit der ein Paar ( $1, $2) vorkam.

Im END{}Block durchlaufen wir weiterhin die Werte und schließen mit so vielen Elementen ab, 0wie von der Anzahl der Elemente bis zur maximalen Anzahl der Elemente fehlen.

Answer

Das ist zwar etwas lang, funktioniert aber:

$ cat file1 file2 | awk '{a[$1FS$2]=a[$1FS$2]FS$3; b[$1FS$2]++} END {for (i in b) max=max<b[i]?b[i]:max; for (i in a) {printf "%s %s", i, a[i]; for (j=b[i]; j<max; j++) printf "%s0", FS  printf "%s", RS}}' 
pqr desc3  12 0
xyz desc1  12 56
uvw desc2  55 88

Der Awk-Block kann wie folgt formatiert werden:

awk '{a[$1FS$2]=a[$1FS$2]FS$3; b[$1FS$2]++}
      END {for (i in b) max=max<b[i]?b[i]:max
          for (i in a) {printf "%s%s%s", i, FS, a[i]
                        for (j=b[i]; j<max; j++) printf "%s0", FS
                        printf "%s", RS}
          }'

Die Idee besteht darin, alle Dateien auszudrucken und dann die wiederholten Werte im Array abzufangen a[$1 $2]. b[$1 $2]Enthält außerdem die Häufigkeit, mit der ein Paar ( $1, $2) vorkam.

Im END{}Block durchlaufen wir weiterhin die Werte und schließen mit so vielen Elementen ab, 0wie von der Anzahl der Elemente bis zur maximalen Anzahl der Elemente fehlen.

UNIX-Spalten einfügen und Nullen für alle fehlenden Werte einfügen

Antwort1

Prüfung 1

Prüfung 2

Bearbeiten:

Antwort2

Antwort3

verwandte Informationen