AWK: Wie kann ich wiederholte Kopfzeilen aus CSV entfernen?

Question 1

Hier ist ein awkSkript, das alle Zeilen überspringt, die mit beginnen ID(Prot), es sei denn, es handelt sich um die erste Zeile:

awk 'NR==1 || !/^ID\(Prot\)/' file > newFile

Hier ist die gleiche Idee in perl:

perl -ne 'print if $.==1 || !/^ID\(Prot\)/' file > newFile

Oder um die Originaldatei direkt zu bearbeiten:

perl -i -ne 'print if $.==1 || !/^ID\(Prot\)/' file

Answer

Hier ist ein awkSkript, das alle Zeilen überspringt, die mit beginnen ID(Prot), es sei denn, es handelt sich um die erste Zeile:

awk 'NR==1 || !/^ID\(Prot\)/' file > newFile

Hier ist die gleiche Idee in perl:

perl -ne 'print if $.==1 || !/^ID\(Prot\)/' file > newFile

Oder um die Originaldatei direkt zu bearbeiten:

perl -i -ne 'print if $.==1 || !/^ID\(Prot\)/' file

Question 2

Mit einem POSIX-kompatiblen sed(getestet auf GNU sedund busybox sed):

sed '1!{/^ID/d;}' data

Löschen Sie alle Zeilen außer der ersten, wenn diese mit beginnen ID. Einige sedImplementierungen bieten die -iOption, die Bearbeitung der Datei direkt zu ermöglichen.

awk:

awk 'NR == 1 {h=$0; print} $0 == h {next}1' data

Wenn wir uns in der ersten Zeile befinden, speichern wir die Kopfzeile und drucken sie aus. Anschließend überspringen wir für jede verarbeitete Zeile diese, wenn sie der Kopfzeile entspricht, und drucken sie andernfalls aus.

Oder das gleiche in perl:

perl -lne '$h = $_ if $. == 1; print if($_ ne $h || $. == 1)' data

Fügen Sie die -iOption hinzu, perldie Datei direkt zu bearbeiten.

Answer

Mit einem POSIX-kompatiblen sed(getestet auf GNU sedund busybox sed):

sed '1!{/^ID/d;}' data

Löschen Sie alle Zeilen außer der ersten, wenn diese mit beginnen ID. Einige sedImplementierungen bieten die -iOption, die Bearbeitung der Datei direkt zu ermöglichen.

awk:

awk 'NR == 1 {h=$0; print} $0 == h {next}1' data

Wenn wir uns in der ersten Zeile befinden, speichern wir die Kopfzeile und drucken sie aus. Anschließend überspringen wir für jede verarbeitete Zeile diese, wenn sie der Kopfzeile entspricht, und drucken sie andernfalls aus.

Oder das gleiche in perl:

perl -lne '$h = $_ if $. == 1; print if($_ ne $h || $. == 1)' data

Fügen Sie die -iOption hinzu, perldie Datei direkt zu bearbeiten.

Question 3

Hier ist eine einfache Möglichkeit, mit dem pbm mithilfe des Dienstprogramms umzugehen awk. Beachten Sie jedoch, dass selbst wenn in den Headern weniger/mehr Leerzeichen vorhanden sind, diese in die Ausgabe aufgenommen werden.

awk '
  NR>1&&$0==hdr{next}
  NR==1{hdr=$0}1
' file

Der gleiche Ansatz, jedoch im Stream-Editor-Dienstprogramm sed:

sed -En '
  1h;1!G;/^(.*)\n\1$/!P
' file

Answer

Hier ist eine einfache Möglichkeit, mit dem pbm mithilfe des Dienstprogramms umzugehen awk. Beachten Sie jedoch, dass selbst wenn in den Headern weniger/mehr Leerzeichen vorhanden sind, diese in die Ausgabe aufgenommen werden.

awk '
  NR>1&&$0==hdr{next}
  NR==1{hdr=$0}1
' file

Der gleiche Ansatz, jedoch im Stream-Editor-Dienstprogramm sed:

sed -En '
  1h;1!G;/^(.*)\n\1$/!P
' file

Question 4

$ awk 'NR==1{h=$0; print} $0!=h' file
ID(Prot),   ID(lig),    ID(cluster),    dG(rescored),   dG(before), POP(before)
1000,   lig40,  1,  0.805136,   -5.5200,    79
1000,   lig868, 1,  0.933209,   -5.6100,    42
1000,   lig278, 1,  0.933689,   -5.7600,    40
1000,   lig619, 3,  0.946354,   -7.6100,    20
1000,   lig211, 1,  0.960048,   -5.2800,    39
1000,   lig40,  2,  0.971051,   -4.9900,    40
1000,   lig868, 3,  0.986384,   -5.5000,    29
1000,   lig12,  3,  0.988506,   -6.7100,    16
1000,   lig800, 16, 0.995574,   -4.5300,    40
1000,   lig800, 1,  0.999935,   -5.7900,    22
1000,   lig619, 1,  1.00876,    -7.9000,    3
1000,   lig619, 2,  1.02254,    -7.6400,    1
1000,   lig12,  1,  1.02723,    -6.8600,    5
1000,   lig12,  2,  1.03273,    -6.8100,    4
1000,   lig211, 2,  1.03722,    -5.2000,    19
1000,   lig211, 3,  1.03738,    -5.0400,    21
10V1,   lig40,  1,  0.513472,   -6.4600,    150
10V1,   lig211, 2,  0.695981,   -6.8200,    91
10V1,   lig278, 1,  0.764432,   -7.0900,    70
10V1,   lig868, 1,  0.787698,   -7.3100,    62
10V1,   lig211, 1,  0.83416,    -6.8800,    54
10V1,   lig868, 3,  0.888408,   -6.4700,    44
10V1,   lig278, 2,  0.915932,   -6.6600,    35
10V1,   lig12,  1,  0.922741,   -9.3600,    19
10V1,   lig12,  8,  0.934144,   -7.4600,    24
10V1,   lig40,  2,  0.949955,   -5.9000,    34
10V1,   lig800, 5,  0.964194,   -5.9200,    30
10V1,   lig868, 2,  0.966243,   -6.9100,    20
10V1,   lig12,  2,  0.972575,   -8.3000,    10
10V1,   lig619, 6,  0.979168,   -8.1600,    9
10V1,   lig619, 4,  0.986202,   -8.7800,    5
10V1,   lig800, 2,  0.989599,   -6.2400,    20
10V1,   lig619, 1,  0.989725,   -9.2900,    3
10V1,   lig12,  7,  0.991535,   -7.5800,    9
10V2,   lig40,  1,  0.525767,   -6.4600,    146
10V2,   lig211, 2,  0.744702,   -6.8200,    78
10V2,   lig278, 1,  0.749015,   -7.0900,    74
10V2,   lig868, 1,  0.772025,   -7.3100,    66
10V2,   lig211, 1,  0.799829,   -6.8700,    63
10V2,   lig12,  1,  0.899345,   -9.1600,    25
10V2,   lig12,  4,  0.899606,   -7.5500,    32
10V2,   lig868, 3,  0.903364,   -6.4800,    40
10V2,   lig278, 3,  0.913145,   -6.6300,    36
10V2,   lig800, 5,  0.94576,    -5.9100,    35

Answer

$ awk 'NR==1{h=$0; print} $0!=h' file
ID(Prot),   ID(lig),    ID(cluster),    dG(rescored),   dG(before), POP(before)
1000,   lig40,  1,  0.805136,   -5.5200,    79
1000,   lig868, 1,  0.933209,   -5.6100,    42
1000,   lig278, 1,  0.933689,   -5.7600,    40
1000,   lig619, 3,  0.946354,   -7.6100,    20
1000,   lig211, 1,  0.960048,   -5.2800,    39
1000,   lig40,  2,  0.971051,   -4.9900,    40
1000,   lig868, 3,  0.986384,   -5.5000,    29
1000,   lig12,  3,  0.988506,   -6.7100,    16
1000,   lig800, 16, 0.995574,   -4.5300,    40
1000,   lig800, 1,  0.999935,   -5.7900,    22
1000,   lig619, 1,  1.00876,    -7.9000,    3
1000,   lig619, 2,  1.02254,    -7.6400,    1
1000,   lig12,  1,  1.02723,    -6.8600,    5
1000,   lig12,  2,  1.03273,    -6.8100,    4
1000,   lig211, 2,  1.03722,    -5.2000,    19
1000,   lig211, 3,  1.03738,    -5.0400,    21
10V1,   lig40,  1,  0.513472,   -6.4600,    150
10V1,   lig211, 2,  0.695981,   -6.8200,    91
10V1,   lig278, 1,  0.764432,   -7.0900,    70
10V1,   lig868, 1,  0.787698,   -7.3100,    62
10V1,   lig211, 1,  0.83416,    -6.8800,    54
10V1,   lig868, 3,  0.888408,   -6.4700,    44
10V1,   lig278, 2,  0.915932,   -6.6600,    35
10V1,   lig12,  1,  0.922741,   -9.3600,    19
10V1,   lig12,  8,  0.934144,   -7.4600,    24
10V1,   lig40,  2,  0.949955,   -5.9000,    34
10V1,   lig800, 5,  0.964194,   -5.9200,    30
10V1,   lig868, 2,  0.966243,   -6.9100,    20
10V1,   lig12,  2,  0.972575,   -8.3000,    10
10V1,   lig619, 6,  0.979168,   -8.1600,    9
10V1,   lig619, 4,  0.986202,   -8.7800,    5
10V1,   lig800, 2,  0.989599,   -6.2400,    20
10V1,   lig619, 1,  0.989725,   -9.2900,    3
10V1,   lig12,  7,  0.991535,   -7.5800,    9
10V2,   lig40,  1,  0.525767,   -6.4600,    146
10V2,   lig211, 2,  0.744702,   -6.8200,    78
10V2,   lig278, 1,  0.749015,   -7.0900,    74
10V2,   lig868, 1,  0.772025,   -7.3100,    66
10V2,   lig211, 1,  0.799829,   -6.8700,    63
10V2,   lig12,  1,  0.899345,   -9.1600,    25
10V2,   lig12,  4,  0.899606,   -7.5500,    32
10V2,   lig868, 3,  0.903364,   -6.4800,    40
10V2,   lig278, 3,  0.913145,   -6.6300,    36
10V2,   lig800, 5,  0.94576,    -5.9100,    35

AWK: Wie kann ich wiederholte Kopfzeilen aus CSV entfernen?

Antwort1

Antwort2

Antwort3

Antwort4

verwandte Informationen