Busque un patrón y agregue una línea a otro archivo

Question 1

Podrías trabajar con el código que ya tienes. Guarde la línea en una matriz y haga coincidir el quinto elemento:

while read -r line; do
    [ -z "$line" ] && continue
    patlist=($line)
    pat=${patlist[4]}
    grep "$pat" --label="$line" -H < KEGG.annotations
done < allKO.txt

devoluciones:

Metabolism Carbohydrate metabolism Glycolisis K07448:>aai:AARI_33320  mrr; restriction system protein Mrr; K07448 restriction system protein
Metabolism Protein metabolism protesome K02217:>aai:AARI_26600  ferritin-like protein; K02217 ferritin [EC:1.16.3.1]

Answer

Podrías trabajar con el código que ya tienes. Guarde la línea en una matriz y haga coincidir el quinto elemento:

while read -r line; do
    [ -z "$line" ] && continue
    patlist=($line)
    pat=${patlist[4]}
    grep "$pat" --label="$line" -H < KEGG.annotations
done < allKO.txt

devoluciones:

Metabolism Carbohydrate metabolism Glycolisis K07448:>aai:AARI_33320  mrr; restriction system protein Mrr; K07448 restriction system protein
Metabolism Protein metabolism protesome K02217:>aai:AARI_26600  ferritin-like protein; K02217 ferritin [EC:1.16.3.1]

Question 2

Esto parece hacer lo que parece estar pidiendo:

while read w1 w2 w3 w4 ID
do
    printf "%s " "$w1 $w2 $w3 $w4 $ID"
    if ! grep "$ID" KEGG.annotations
    then
        echo
    fi
done < allKO.txt

Esto escribirá la salida en la pantalla. Agregue una >redirección de salida ( ) (por ejemplo, > test1) a la última línea para capturar la salida en un archivo.

Según sus ejemplos, el campo clave/ID ("patrón") es elquintodecincocampos en el allKO.txtarchivo, por lo que read w1 w2 w3 w4 ID. Dice que este es un archivo delimitado por tabulaciones; Supongo que ninguno de los campos contiene espacios.
Escriba ( printf) la línea (es decir, los campos) de allKO.txt, con un espacio al final pero sin una nueva línea final.
Busque ( grep) el KEGG.annotationsarchivo para el ID (quinto campo de la línea de allKO.txt). Estas serán líneas completas (incluidas las nuevas líneas).
Si grepfalla, escriba una nueva línea, ya que printfno lo hizo.

Esto dará como resultado que las líneas cuyo ID no esté presente KEGG.annotations se escriban simplemente en la salida:

Metabolism Protein metabolism proteasome K02217  >aai:AARI_26600 ferritin-like protein; K02217 ferritin [EC:1.16.3.1]
This ID doesn’t exist: K99999

y los ID que existen más de una vez se escriben como líneas adicionales (sin repetir los datos de allKO.txt):

Metabolism Protein metabolism proteasome K02217  >aai:AARI_26600 ferritin-like protein; K02217 ferritin [EC:1.16.3.1]
This is a hypothetical additional line from KEGG.annotations that mentions “K02217”.

Answer

Esto parece hacer lo que parece estar pidiendo:

while read w1 w2 w3 w4 ID
do
    printf "%s " "$w1 $w2 $w3 $w4 $ID"
    if ! grep "$ID" KEGG.annotations
    then
        echo
    fi
done < allKO.txt

Esto escribirá la salida en la pantalla. Agregue una >redirección de salida ( ) (por ejemplo, > test1) a la última línea para capturar la salida en un archivo.

Según sus ejemplos, el campo clave/ID ("patrón") es elquintodecincocampos en el allKO.txtarchivo, por lo que read w1 w2 w3 w4 ID. Dice que este es un archivo delimitado por tabulaciones; Supongo que ninguno de los campos contiene espacios.
Escriba ( printf) la línea (es decir, los campos) de allKO.txt, con un espacio al final pero sin una nueva línea final.
Busque ( grep) el KEGG.annotationsarchivo para el ID (quinto campo de la línea de allKO.txt). Estas serán líneas completas (incluidas las nuevas líneas).
Si grepfalla, escriba una nueva línea, ya que printfno lo hizo.

Esto dará como resultado que las líneas cuyo ID no esté presente KEGG.annotations se escriban simplemente en la salida:

Metabolism Protein metabolism proteasome K02217  >aai:AARI_26600 ferritin-like protein; K02217 ferritin [EC:1.16.3.1]
This ID doesn’t exist: K99999

y los ID que existen más de una vez se escriben como líneas adicionales (sin repetir los datos de allKO.txt):

Metabolism Protein metabolism proteasome K02217  >aai:AARI_26600 ferritin-like protein; K02217 ferritin [EC:1.16.3.1]
This is a hypothetical additional line from KEGG.annotations that mentions “K02217”.

Busque un patrón y agregue una línea a otro archivo

Respuesta1

Respuesta2

información relacionada