bestimmte Zeichenfolge extrahieren, suchen und ersetzen oder eine längere Zeichenfolge behalten, die den extrahierten Wert enthält

Question 1

Du kannst es schaffen:

cat gene_map_table_fb_2014_01_short.tsv  |sed '1d' |awk {'print $2'} |awk 'BEGIN{FS=":"} {print $2}' |sed s/._//g

Zuerst caten Sie Ihre Datei, dann löschen Sie die erste Zeile (Spaltenüberschrift mit d1), dann drucken Sie alle Spalten aus, dann trennen Sie sie 4_FBgn0035847mit awk 'BEGIN{FS=":"} {print $2}'Dann eliminieren Sie number_mitsed s/._//g

Die Ausgabe lautet:

FBgn0035847
FBgn0032515
FBgn0266486
1FBgn0031359
1FBgn0031359
1FBgn0031359
CR31143

Wenn Ihre Endzeile jedoch zusätzlich ist und Sie sie entfernen möchten, können Sie dies tun:

cat gene_map_table_fb_2014_01_short.tsv  |sed '1d' |awk {'print $2'} |awk 'BEGIN{FS=":"} {print $2}' |sed s/._//g |sed '$d'

Die Ausgabe lautet also:

FBgn0035847
FBgn0032515
FBgn0266486
1FBgn0031359
1FBgn0031359
1FBgn0031359

Answer

Du kannst es schaffen:

cat gene_map_table_fb_2014_01_short.tsv  |sed '1d' |awk {'print $2'} |awk 'BEGIN{FS=":"} {print $2}' |sed s/._//g

Zuerst caten Sie Ihre Datei, dann löschen Sie die erste Zeile (Spaltenüberschrift mit d1), dann drucken Sie alle Spalten aus, dann trennen Sie sie 4_FBgn0035847mit awk 'BEGIN{FS=":"} {print $2}'Dann eliminieren Sie number_mitsed s/._//g

Die Ausgabe lautet:

FBgn0035847
FBgn0032515
FBgn0266486
1FBgn0031359
1FBgn0031359
1FBgn0031359
CR31143

Wenn Ihre Endzeile jedoch zusätzlich ist und Sie sie entfernen möchten, können Sie dies tun:

cat gene_map_table_fb_2014_01_short.tsv  |sed '1d' |awk {'print $2'} |awk 'BEGIN{FS=":"} {print $2}' |sed s/._//g |sed '$d'

Die Ausgabe lautet also:

FBgn0035847
FBgn0032515
FBgn0266486
1FBgn0031359
1FBgn0031359
1FBgn0031359

Question 2

Verwenden von`awk`

Dadurch wird eine durch Tabulatoren getrennte Ausgabe erstellt:

$ awk -v OFS="\t" 'NR==FNR{a[$1]=$2;next} FNR==1{print;next} {sub(/intron_/, "", $2); sub(/:.*/,"",$2);if ($2 in a) $2=a[$2];print}' gene_map_table_fb_2014_01_short.tsv HC25_LNv_ZT02_intron_results.txt
bundle_id   target_id   length  eff_length  tot_counts  uniq_counts est_counts  eff_counts  ambig_distr_alpha   ambig_distr_beta    fpkm    fpkm_conf_low   fpkm_conf_high  solvable    tpm
1       mthl7   61      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
2       loqs    72      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
3       CG45085 58      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
536     CR31143 40      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00

Erläuterung:

-v OFS="\t"

Dadurch wird der Ausgabefeldtrenner zu einem Tabulator.
NR==FNR{a[$1]=$2;next}

Dadurch wird ein assoziatives Array erstellt, das aauf der ersten Datei in der Befehlszeile basiert, wobei die erste Spalte als Schlüssel und die zweite Spalte als Wert dient. Der nextBefehl weist an awk, den Rest der Befehle zu überspringen und zur nächsten Zeile zu springen.

Die Mapping-Datei enthält einige Kommentarzeilen. Wir hätten leicht eine zusätzliche ifAnweisung hinzufügen können, um zu verhindern, dass sie zum Array hinzugefügt werden a. Da sie jedoch keinen Schaden anrichten, haben wir diese Komplikation übersprungen.
FNR==1{print;next}

Dadurch wird die Kopfzeile unverändert gedruckt.
{sub(/intron_/, "", $2); sub(/:.*/,"",$2)

Dadurch wird der Ballast aus dem zweiten Feld entfernt, und nur die gewünschte Zeichenfolge bleibt übrig.
`wenn ($2 in a) $2=a[$2]

Wenn der String aus dem zweiten Feld als Schlüssel im Array vorhanden ist a, ersetzen wir ihn durch den entsprechenden Wert.
print

Die überarbeitete Zeile wird ausgedruckt.

Verwenden von`bash`

Ersetzen Sie im Skript

if [ ! -z "$key" ]

Mit:

if [[ "$key" && "${map[$key]}" ]]

An dieser Stelle scheint das Skript wissen zu müssen, ob keyin vorhanden war mapoder nicht. Der überarbeitete Test stellt nicht nur sicher, dass keynicht leer ist, sondern dass es in ist map.

Mit dieser einen Änderung erhalte ich die Ausgabe:

$ cat temptemp.txt 
bundle_id   target_id   length  eff_length  tot_counts  uniq_counts est_counts  eff_counts  ambig_distr_alpha   ambig_distr_beta    fpkm    fpkm_conf_low   fpkm_conf_high  solvable    tpm
1       mthl7   61      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
2       loqs    72      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
3       CG45085 58      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
536     CR31143 40      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00

Als Randbemerkung zu text: [ ! -z "$key" ]Gibt true zurück, wenn keynicht leer ist. Dies entspricht [ -n "$key" ]. Da dies ein so gängiger Test ist, kann er weiter auf verkürzt werden [ "$key" ]. Dies könnte verwendet werden, um mehrere Zeilen im bashSkript zu vereinfachen.

Answer

Verwenden von`awk`

Dadurch wird eine durch Tabulatoren getrennte Ausgabe erstellt:

$ awk -v OFS="\t" 'NR==FNR{a[$1]=$2;next} FNR==1{print;next} {sub(/intron_/, "", $2); sub(/:.*/,"",$2);if ($2 in a) $2=a[$2];print}' gene_map_table_fb_2014_01_short.tsv HC25_LNv_ZT02_intron_results.txt
bundle_id   target_id   length  eff_length  tot_counts  uniq_counts est_counts  eff_counts  ambig_distr_alpha   ambig_distr_beta    fpkm    fpkm_conf_low   fpkm_conf_high  solvable    tpm
1       mthl7   61      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
2       loqs    72      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
3       CG45085 58      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
536     CR31143 40      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00

Erläuterung:

-v OFS="\t"

Dadurch wird der Ausgabefeldtrenner zu einem Tabulator.
NR==FNR{a[$1]=$2;next}

Dadurch wird ein assoziatives Array erstellt, das aauf der ersten Datei in der Befehlszeile basiert, wobei die erste Spalte als Schlüssel und die zweite Spalte als Wert dient. Der nextBefehl weist an awk, den Rest der Befehle zu überspringen und zur nächsten Zeile zu springen.

Die Mapping-Datei enthält einige Kommentarzeilen. Wir hätten leicht eine zusätzliche ifAnweisung hinzufügen können, um zu verhindern, dass sie zum Array hinzugefügt werden a. Da sie jedoch keinen Schaden anrichten, haben wir diese Komplikation übersprungen.
FNR==1{print;next}

Dadurch wird die Kopfzeile unverändert gedruckt.
{sub(/intron_/, "", $2); sub(/:.*/,"",$2)

Dadurch wird der Ballast aus dem zweiten Feld entfernt, und nur die gewünschte Zeichenfolge bleibt übrig.
`wenn ($2 in a) $2=a[$2]

Wenn der String aus dem zweiten Feld als Schlüssel im Array vorhanden ist a, ersetzen wir ihn durch den entsprechenden Wert.
print

Die überarbeitete Zeile wird ausgedruckt.

Verwenden von`bash`

Ersetzen Sie im Skript

if [ ! -z "$key" ]

Mit:

if [[ "$key" && "${map[$key]}" ]]

An dieser Stelle scheint das Skript wissen zu müssen, ob keyin vorhanden war mapoder nicht. Der überarbeitete Test stellt nicht nur sicher, dass keynicht leer ist, sondern dass es in ist map.

Mit dieser einen Änderung erhalte ich die Ausgabe:

$ cat temptemp.txt 
bundle_id   target_id   length  eff_length  tot_counts  uniq_counts est_counts  eff_counts  ambig_distr_alpha   ambig_distr_beta    fpkm    fpkm_conf_low   fpkm_conf_high  solvable    tpm
1       mthl7   61      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
2       loqs    72      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
3       CG45085 58      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
536     CR31143 40      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00

Als Randbemerkung zu text: [ ! -z "$key" ]Gibt true zurück, wenn keynicht leer ist. Dies entspricht [ -n "$key" ]. Da dies ein so gängiger Test ist, kann er weiter auf verkürzt werden [ "$key" ]. Dies könnte verwendet werden, um mehrere Zeilen im bashSkript zu vereinfachen.

bestimmte Zeichenfolge extrahieren, suchen und ersetzen oder eine längere Zeichenfolge behalten, die den extrahierten Wert enthält

Antwort1

Antwort2

Verwenden von`awk`

Verwenden von`bash`

verwandte Informationen

Antwort1

Antwort2

Verwenden vonawk

Verwenden vonbash

verwandte Informationen

Verwenden von`awk`

Verwenden von`bash`