AWK: Wie kann ich wiederholte Kopfzeilen aus CSV entfernen?

AWK: Wie kann ich wiederholte Kopfzeilen aus CSV entfernen?

Beim Umgang mit der CSV, die durch die Verkettung mehrerer CSVs entsteht, suche ich nach einer Möglichkeit, Wiederholungen der Kopfzeilen (die in jeder verketteten CSV vorhanden und untereinander identisch sind) zu entfernen. Hier ist meine CSV, die Wiederholungen der ersten Zeile enthält:

ID(Prot),   ID(lig),    ID(cluster),    dG(rescored),   dG(before), POP(before)
1000,   lig40,  1,  0.805136,   -5.5200,    79
1000,   lig868, 1,  0.933209,   -5.6100,    42
1000,   lig278, 1,  0.933689,   -5.7600,    40
1000,   lig619, 3,  0.946354,   -7.6100,    20
1000,   lig211, 1,  0.960048,   -5.2800,    39
1000,   lig40,  2,  0.971051,   -4.9900,    40
1000,   lig868, 3,  0.986384,   -5.5000,    29
1000,   lig12,  3,  0.988506,   -6.7100,    16
1000,   lig800, 16, 0.995574,   -4.5300,    40
1000,   lig800, 1,  0.999935,   -5.7900,    22
1000,   lig619, 1,  1.00876,    -7.9000,    3
1000,   lig619, 2,  1.02254,    -7.6400,    1
1000,   lig12,  1,  1.02723,    -6.8600,    5
1000,   lig12,  2,  1.03273,    -6.8100,    4
1000,   lig211, 2,  1.03722,    -5.2000,    19
1000,   lig211, 3,  1.03738,    -5.0400,    21
ID(Prot),   ID(lig),    ID(cluster),    dG(rescored),   dG(before), POP(before)
10V1,   lig40,  1,  0.513472,   -6.4600,    150
10V1,   lig211, 2,  0.695981,   -6.8200,    91
10V1,   lig278, 1,  0.764432,   -7.0900,    70
10V1,   lig868, 1,  0.787698,   -7.3100,    62
10V1,   lig211, 1,  0.83416,    -6.8800,    54
10V1,   lig868, 3,  0.888408,   -6.4700,    44
10V1,   lig278, 2,  0.915932,   -6.6600,    35
10V1,   lig12,  1,  0.922741,   -9.3600,    19
10V1,   lig12,  8,  0.934144,   -7.4600,    24
10V1,   lig40,  2,  0.949955,   -5.9000,    34
10V1,   lig800, 5,  0.964194,   -5.9200,    30
10V1,   lig868, 2,  0.966243,   -6.9100,    20
10V1,   lig12,  2,  0.972575,   -8.3000,    10
10V1,   lig619, 6,  0.979168,   -8.1600,    9
10V1,   lig619, 4,  0.986202,   -8.7800,    5
10V1,   lig800, 2,  0.989599,   -6.2400,    20
10V1,   lig619, 1,  0.989725,   -9.2900,    3
10V1,   lig12,  7,  0.991535,   -7.5800,    9
ID(Prot),   ID(lig),    ID(cluster),    dG(rescored),   dG(before), POP(before)
10V2,   lig40,  1,  0.525767,   -6.4600,    146
10V2,   lig211, 2,  0.744702,   -6.8200,    78
10V2,   lig278, 1,  0.749015,   -7.0900,    74
10V2,   lig868, 1,  0.772025,   -7.3100,    66
10V2,   lig211, 1,  0.799829,   -6.8700,    63
10V2,   lig12,  1,  0.899345,   -9.1600,    25
10V2,   lig12,  4,  0.899606,   -7.5500,    32
10V2,   lig868, 3,  0.903364,   -6.4800,    40
10V2,   lig278, 3,  0.913145,   -6.6300,    36
10V2,   lig800, 5,  0.94576,    -5.9100,    35

Um diese CSV nachzubearbeiten, muss ich Wiederholungen der Kopfzeile entfernen

ID(Prot),   ID(lig),    ID(cluster),    dG(rescored),   dG(before), POP(before)

Behalten Sie den Header nur am Anfang der fusionierten CSV (in der ersten Zeile!). Ich habe versucht, den folgenden Awk-Einzeiler zu verwenden, der nach der ersten Zeile sucht und dann ihre Wiederholungen entfernt

 awk '{first=$1;gsub("ID(Prot)","");print first,$0}' mycsv.csv > csv_without_repeats.csv

Allerdings wurde die Kopfzeile nicht erkannt, das heißt, das Muster war nicht richtig definiert.

Wie könnte mein AWK-Code korrigiert werden, vorausgesetzt, dass er weiter zum Sortieren weitergeleitet werden sollte, um die Zeilen nach dem Filtern der Wiederholungen zu sortieren?

awk '{first=$1;gsub(/ID(Prot)?(\([-azA-Z]+\))?/,"");print first,$0}' | LC_ALL=C sort -k4,4g input.csv > sorted_and_without_repeats.csv

Antwort1

Hier ist ein awkSkript, das alle Zeilen überspringt, die mit beginnen ID(Prot), es sei denn, es handelt sich um die erste Zeile:

awk 'NR==1 || !/^ID\(Prot\)/' file > newFile

Hier ist die gleiche Idee in perl:

perl -ne 'print if $.==1 || !/^ID\(Prot\)/' file > newFile

Oder um die Originaldatei direkt zu bearbeiten:

perl -i -ne 'print if $.==1 || !/^ID\(Prot\)/' file 

Antwort2

Mit einem POSIX-kompatiblen sed(getestet auf GNU sedund busybox sed):

sed '1!{/^ID/d;}' data

Löschen Sie alle Zeilen außer der ersten, wenn diese mit beginnen ID. Einige sedImplementierungen bieten die -iOption, die Bearbeitung der Datei direkt zu ermöglichen.


awk:

awk 'NR == 1 {h=$0; print} $0 == h {next}1' data

Wenn wir uns in der ersten Zeile befinden, speichern wir die Kopfzeile und drucken sie aus. Anschließend überspringen wir für jede verarbeitete Zeile diese, wenn sie der Kopfzeile entspricht, und drucken sie andernfalls aus.


Oder das gleiche in perl:

perl -lne '$h = $_ if $. == 1; print if($_ ne $h || $. == 1)' data

Fügen Sie die -iOption hinzu, perldie Datei direkt zu bearbeiten.

Antwort3

Hier ist eine einfache Möglichkeit, mit dem pbm mithilfe des Dienstprogramms umzugehen awk. Beachten Sie jedoch, dass selbst wenn in den Headern weniger/mehr Leerzeichen vorhanden sind, diese in die Ausgabe aufgenommen werden.

awk '
  NR>1&&$0==hdr{next}
  NR==1{hdr=$0}1
' file

Der gleiche Ansatz, jedoch im Stream-Editor-Dienstprogramm sed:

sed -En '
  1h;1!G;/^(.*)\n\1$/!P
' file

Antwort4

$ awk 'NR==1{h=$0; print} $0!=h' file
ID(Prot),   ID(lig),    ID(cluster),    dG(rescored),   dG(before), POP(before)
1000,   lig40,  1,  0.805136,   -5.5200,    79
1000,   lig868, 1,  0.933209,   -5.6100,    42
1000,   lig278, 1,  0.933689,   -5.7600,    40
1000,   lig619, 3,  0.946354,   -7.6100,    20
1000,   lig211, 1,  0.960048,   -5.2800,    39
1000,   lig40,  2,  0.971051,   -4.9900,    40
1000,   lig868, 3,  0.986384,   -5.5000,    29
1000,   lig12,  3,  0.988506,   -6.7100,    16
1000,   lig800, 16, 0.995574,   -4.5300,    40
1000,   lig800, 1,  0.999935,   -5.7900,    22
1000,   lig619, 1,  1.00876,    -7.9000,    3
1000,   lig619, 2,  1.02254,    -7.6400,    1
1000,   lig12,  1,  1.02723,    -6.8600,    5
1000,   lig12,  2,  1.03273,    -6.8100,    4
1000,   lig211, 2,  1.03722,    -5.2000,    19
1000,   lig211, 3,  1.03738,    -5.0400,    21
10V1,   lig40,  1,  0.513472,   -6.4600,    150
10V1,   lig211, 2,  0.695981,   -6.8200,    91
10V1,   lig278, 1,  0.764432,   -7.0900,    70
10V1,   lig868, 1,  0.787698,   -7.3100,    62
10V1,   lig211, 1,  0.83416,    -6.8800,    54
10V1,   lig868, 3,  0.888408,   -6.4700,    44
10V1,   lig278, 2,  0.915932,   -6.6600,    35
10V1,   lig12,  1,  0.922741,   -9.3600,    19
10V1,   lig12,  8,  0.934144,   -7.4600,    24
10V1,   lig40,  2,  0.949955,   -5.9000,    34
10V1,   lig800, 5,  0.964194,   -5.9200,    30
10V1,   lig868, 2,  0.966243,   -6.9100,    20
10V1,   lig12,  2,  0.972575,   -8.3000,    10
10V1,   lig619, 6,  0.979168,   -8.1600,    9
10V1,   lig619, 4,  0.986202,   -8.7800,    5
10V1,   lig800, 2,  0.989599,   -6.2400,    20
10V1,   lig619, 1,  0.989725,   -9.2900,    3
10V1,   lig12,  7,  0.991535,   -7.5800,    9
10V2,   lig40,  1,  0.525767,   -6.4600,    146
10V2,   lig211, 2,  0.744702,   -6.8200,    78
10V2,   lig278, 1,  0.749015,   -7.0900,    74
10V2,   lig868, 1,  0.772025,   -7.3100,    66
10V2,   lig211, 1,  0.799829,   -6.8700,    63
10V2,   lig12,  1,  0.899345,   -9.1600,    25
10V2,   lig12,  4,  0.899606,   -7.5500,    32
10V2,   lig868, 3,  0.903364,   -6.4800,    40
10V2,   lig278, 3,  0.913145,   -6.6300,    36
10V2,   lig800, 5,  0.94576,    -5.9100,    35

verwandte Informationen