extrair determinada string, pesquisar e substituir ou manter uma string mais longa contendo o valor extraído

Question 1

Você consegue:

cat gene_map_table_fb_2014_01_short.tsv  |sed '1d' |awk {'print $2'} |awk 'BEGIN{FS=":"} {print $2}' |sed s/._//g

Primeiro cat seu arquivo, em seguida, exclua a primeira linha (cabeçalho das colunas com d1), depois imprima toda a coluna e separe 4_FBgn0035847com awk 'BEGIN{FS=":"} {print $2}'Em seguida, elimine number_comsed s/._//g

A saída é:

FBgn0035847
FBgn0032515
FBgn0266486
1FBgn0031359
1FBgn0031359
1FBgn0031359
CR31143

Porém se sua linha final for extra e você quiser removê-la, você pode fazer isso:

cat gene_map_table_fb_2014_01_short.tsv  |sed '1d' |awk {'print $2'} |awk 'BEGIN{FS=":"} {print $2}' |sed s/._//g |sed '$d'

Então, a saída é:

FBgn0035847
FBgn0032515
FBgn0266486
1FBgn0031359
1FBgn0031359
1FBgn0031359

Answer

Você consegue:

cat gene_map_table_fb_2014_01_short.tsv  |sed '1d' |awk {'print $2'} |awk 'BEGIN{FS=":"} {print $2}' |sed s/._//g

Primeiro cat seu arquivo, em seguida, exclua a primeira linha (cabeçalho das colunas com d1), depois imprima toda a coluna e separe 4_FBgn0035847com awk 'BEGIN{FS=":"} {print $2}'Em seguida, elimine number_comsed s/._//g

A saída é:

FBgn0035847
FBgn0032515
FBgn0266486
1FBgn0031359
1FBgn0031359
1FBgn0031359
CR31143

Porém se sua linha final for extra e você quiser removê-la, você pode fazer isso:

cat gene_map_table_fb_2014_01_short.tsv  |sed '1d' |awk {'print $2'} |awk 'BEGIN{FS=":"} {print $2}' |sed s/._//g |sed '$d'

Então, a saída é:

FBgn0035847
FBgn0032515
FBgn0266486
1FBgn0031359
1FBgn0031359
1FBgn0031359

Question 2

Usando`awk`

Isso cria uma saída separada por tabulações:

$ awk -v OFS="\t" 'NR==FNR{a[$1]=$2;next} FNR==1{print;next} {sub(/intron_/, "", $2); sub(/:.*/,"",$2);if ($2 in a) $2=a[$2];print}' gene_map_table_fb_2014_01_short.tsv HC25_LNv_ZT02_intron_results.txt
bundle_id   target_id   length  eff_length  tot_counts  uniq_counts est_counts  eff_counts  ambig_distr_alpha   ambig_distr_beta    fpkm    fpkm_conf_low   fpkm_conf_high  solvable    tpm
1       mthl7   61      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
2       loqs    72      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
3       CG45085 58      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
536     CR31143 40      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00

Explicação:

-v OFS="\t"

Isso transforma o separador do campo de saída em uma guia.
NR==FNR{a[$1]=$2;next}

Isso cria uma matriz associativa, abaseada no primeiro arquivo na linha de comando, com a primeira coluna como chave e a segunda coluna como valor. O nextcomando instrui awka pular o restante dos comandos e pular para a próxima linha.

O arquivo de mapeamento contém algumas linhas de comentários. Poderíamos facilmente ter adicionado uma ifinstrução extra para evitar que eles fossem adicionados ao array a. No entanto, como não causam danos, evitamos essa complicação.
FNR==1{print;next}

Isso imprime a linha do cabeçalho inalterada.
{sub(/intron_/, "", $2); sub(/:.*/,"",$2)

Isso remove a penugem do segundo campo, deixando para trás apenas a string que desejamos.
`se ($2 em a) $2=a[$2]

Se a string do segundo campo estiver presente como uma chave em array a, então substituímos seu valor correspondente.
print

A linha revisada é impressa.

Usando`bash`

No script, substitua

if [ ! -z "$key" ]

Com:

if [[ "$key" && "${map[$key]}" ]]

O que o script parece precisar saber neste momento é se keyestava presente mapou não. O teste revisado garante não apenas que keynão esteja vazio, mas que esteja dentro map.

Com essa alteração, obtenho a saída:

$ cat temptemp.txt 
bundle_id   target_id   length  eff_length  tot_counts  uniq_counts est_counts  eff_counts  ambig_distr_alpha   ambig_distr_beta    fpkm    fpkm_conf_low   fpkm_conf_high  solvable    tpm
1       mthl7   61      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
2       loqs    72      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
3       CG45085 58      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
536     CR31143 40      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00

Como um aparte text, [ ! -z "$key" ]retorna verdadeiro se keynão estiver vazio. Isto é equivalente a [ -n "$key" ]. Como este é um teste muito comum, ele pode ser ainda mais abreviado para [ "$key" ]. Isso pode ser usado para simplificar várias linhas do bashscript.

Answer

Usando`awk`

Isso cria uma saída separada por tabulações:

$ awk -v OFS="\t" 'NR==FNR{a[$1]=$2;next} FNR==1{print;next} {sub(/intron_/, "", $2); sub(/:.*/,"",$2);if ($2 in a) $2=a[$2];print}' gene_map_table_fb_2014_01_short.tsv HC25_LNv_ZT02_intron_results.txt
bundle_id   target_id   length  eff_length  tot_counts  uniq_counts est_counts  eff_counts  ambig_distr_alpha   ambig_distr_beta    fpkm    fpkm_conf_low   fpkm_conf_high  solvable    tpm
1       mthl7   61      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
2       loqs    72      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
3       CG45085 58      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
536     CR31143 40      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00

Explicação:

-v OFS="\t"

Isso transforma o separador do campo de saída em uma guia.
NR==FNR{a[$1]=$2;next}

Isso cria uma matriz associativa, abaseada no primeiro arquivo na linha de comando, com a primeira coluna como chave e a segunda coluna como valor. O nextcomando instrui awka pular o restante dos comandos e pular para a próxima linha.

O arquivo de mapeamento contém algumas linhas de comentários. Poderíamos facilmente ter adicionado uma ifinstrução extra para evitar que eles fossem adicionados ao array a. No entanto, como não causam danos, evitamos essa complicação.
FNR==1{print;next}

Isso imprime a linha do cabeçalho inalterada.
{sub(/intron_/, "", $2); sub(/:.*/,"",$2)

Isso remove a penugem do segundo campo, deixando para trás apenas a string que desejamos.
`se ($2 em a) $2=a[$2]

Se a string do segundo campo estiver presente como uma chave em array a, então substituímos seu valor correspondente.
print

A linha revisada é impressa.

Usando`bash`

No script, substitua

if [ ! -z "$key" ]

Com:

if [[ "$key" && "${map[$key]}" ]]

O que o script parece precisar saber neste momento é se keyestava presente mapou não. O teste revisado garante não apenas que keynão esteja vazio, mas que esteja dentro map.

Com essa alteração, obtenho a saída:

$ cat temptemp.txt 
bundle_id   target_id   length  eff_length  tot_counts  uniq_counts est_counts  eff_counts  ambig_distr_alpha   ambig_distr_beta    fpkm    fpkm_conf_low   fpkm_conf_high  solvable    tpm
1       mthl7   61      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
2       loqs    72      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
3       CG45085 58      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
4       CG18317 4978    1430.739479     91      0       30.333333       105.539363      1.00E+00        1.00E+00        6.30E+00        1.77E+00        1.08E+01        F       1.42E+01
536     CR31143 40      0       0       0       0       0       0.00E+00        0.00E+00        0.00E+00        0.00E+00        0.00E+00        F       0.00E+00

Como um aparte text, [ ! -z "$key" ]retorna verdadeiro se keynão estiver vazio. Isto é equivalente a [ -n "$key" ]. Como este é um teste muito comum, ele pode ser ainda mais abreviado para [ "$key" ]. Isso pode ser usado para simplificar várias linhas do bashscript.

extrair determinada string, pesquisar e substituir ou manter uma string mais longa contendo o valor extraído

Responder1

Responder2

Usando`awk`

Usando`bash`

informação relacionada

Responder1

Responder2

Usandoawk

Usandobash

informação relacionada

Usando`awk`

Usando`bash`