Procure o padrão e anexe a linha a outro arquivo

Question 1

Você poderia trabalhar com o código que já possui. Armazene a linha em um array e combine o quinto elemento:

while read -r line; do
    [ -z "$line" ] && continue
    patlist=($line)
    pat=${patlist[4]}
    grep "$pat" --label="$line" -H < KEGG.annotations
done < allKO.txt

retorna:

Metabolism Carbohydrate metabolism Glycolisis K07448:>aai:AARI_33320  mrr; restriction system protein Mrr; K07448 restriction system protein
Metabolism Protein metabolism protesome K02217:>aai:AARI_26600  ferritin-like protein; K02217 ferritin [EC:1.16.3.1]

Answer

Você poderia trabalhar com o código que já possui. Armazene a linha em um array e combine o quinto elemento:

while read -r line; do
    [ -z "$line" ] && continue
    patlist=($line)
    pat=${patlist[4]}
    grep "$pat" --label="$line" -H < KEGG.annotations
done < allKO.txt

retorna:

Metabolism Carbohydrate metabolism Glycolisis K07448:>aai:AARI_33320  mrr; restriction system protein Mrr; K07448 restriction system protein
Metabolism Protein metabolism protesome K02217:>aai:AARI_26600  ferritin-like protein; K02217 ferritin [EC:1.16.3.1]

Question 2

Isso parece fazer o que você parece estar pedindo:

while read w1 w2 w3 w4 ID
do
    printf "%s " "$w1 $w2 $w3 $w4 $ID"
    if ! grep "$ID" KEGG.annotations
    then
        echo
    fi
done < allKO.txt

Isso gravará a saída na tela. Adicione um >redirecionamento de saída ( ) (por exemplo, > test1) à última linha para capturar a saída em um arquivo.

Com base em seus exemplos, o campo chave/ID (“padrão”) é oquintodecincocampos no allKO.txtarquivo, então nós read w1 w2 w3 w4 ID. Você diz que este é um arquivo delimitado por tabulações; Presumo que nenhum dos campos contenha espaços.
Escreva ( printf) a linha (ou seja, os campos) de allKO.txt, com um espaço no final, mas sem nova linha final.
Pesquise ( grep) o KEGG.annotationsarquivo pelo ID (quinto campo da linha de allKO.txt). Estas serão linhas completas (incluindo novas linhas).
Se grepfalhar, escreva uma nova linha, já que printfnão.

Isso fará com que as linhas cujo ID não esteja presente KEGG.annotations sejam simplesmente gravadas na saída:

Metabolism Protein metabolism proteasome K02217  >aai:AARI_26600 ferritin-like protein; K02217 ferritin [EC:1.16.3.1]
This ID doesn’t exist: K99999

e IDs que existem mais de uma vez são escritos como linhas adicionais (sem repetir os dados de allKO.txt):

Metabolism Protein metabolism proteasome K02217  >aai:AARI_26600 ferritin-like protein; K02217 ferritin [EC:1.16.3.1]
This is a hypothetical additional line from KEGG.annotations that mentions “K02217”.

Answer

Isso parece fazer o que você parece estar pedindo:

while read w1 w2 w3 w4 ID
do
    printf "%s " "$w1 $w2 $w3 $w4 $ID"
    if ! grep "$ID" KEGG.annotations
    then
        echo
    fi
done < allKO.txt

Isso gravará a saída na tela. Adicione um >redirecionamento de saída ( ) (por exemplo, > test1) à última linha para capturar a saída em um arquivo.

Com base em seus exemplos, o campo chave/ID (“padrão”) é oquintodecincocampos no allKO.txtarquivo, então nós read w1 w2 w3 w4 ID. Você diz que este é um arquivo delimitado por tabulações; Presumo que nenhum dos campos contenha espaços.
Escreva ( printf) a linha (ou seja, os campos) de allKO.txt, com um espaço no final, mas sem nova linha final.
Pesquise ( grep) o KEGG.annotationsarquivo pelo ID (quinto campo da linha de allKO.txt). Estas serão linhas completas (incluindo novas linhas).
Se grepfalhar, escreva uma nova linha, já que printfnão.

Isso fará com que as linhas cujo ID não esteja presente KEGG.annotations sejam simplesmente gravadas na saída:

Metabolism Protein metabolism proteasome K02217  >aai:AARI_26600 ferritin-like protein; K02217 ferritin [EC:1.16.3.1]
This ID doesn’t exist: K99999

e IDs que existem mais de uma vez são escritos como linhas adicionais (sem repetir os dados de allKO.txt):

Metabolism Protein metabolism proteasome K02217  >aai:AARI_26600 ferritin-like protein; K02217 ferritin [EC:1.16.3.1]
This is a hypothetical additional line from KEGG.annotations that mentions “K02217”.

Procure o padrão e anexe a linha a outro arquivo

Responder1

Responder2

informação relacionada