搜尋模式並將行附加到另一個文件

Question 1

您可以使用現有的程式碼。將該行儲存到數組中並匹配第五個元素：

while read -r line; do
    [ -z "$line" ] && continue
    patlist=($line)
    pat=${patlist[4]}
    grep "$pat" --label="$line" -H < KEGG.annotations
done < allKO.txt

返回：

Metabolism Carbohydrate metabolism Glycolisis K07448:>aai:AARI_33320  mrr; restriction system protein Mrr; K07448 restriction system protein
Metabolism Protein metabolism protesome K02217:>aai:AARI_26600  ferritin-like protein; K02217 ferritin [EC:1.16.3.1]

Answer

您可以使用現有的程式碼。將該行儲存到數組中並匹配第五個元素：

while read -r line; do
    [ -z "$line" ] && continue
    patlist=($line)
    pat=${patlist[4]}
    grep "$pat" --label="$line" -H < KEGG.annotations
done < allKO.txt

返回：

Metabolism Carbohydrate metabolism Glycolisis K07448:>aai:AARI_33320  mrr; restriction system protein Mrr; K07448 restriction system protein
Metabolism Protein metabolism protesome K02217:>aai:AARI_26600  ferritin-like protein; K02217 ferritin [EC:1.16.3.1]

Question 2

這似乎符合您的要求：

while read w1 w2 w3 w4 ID
do
    printf "%s " "$w1 $w2 $w3 $w4 $ID"
    if ! grep "$ID" KEGG.annotations
    then
        echo
    fi
done < allKO.txt

這會將輸出寫入螢幕。將輸出 ( >) 重定向（例如> test1）新增到最後一行以擷取檔案中的輸出。

根據您的範例，鍵/ID 欄位（“模式”）是第五的五文件中的字段allKO.txt，所以我們read w1 w2 w3 w4 ID.你說這是一個製表符分隔的文件；我假設所有字段都不包含空格。
寫入 ( printf) 來自的行（即字段）allKO.txt，末尾有一個空格，但沒有終止換行符。
在( grep)KEGG.annotations文件中搜尋 ID（來自的行中的第五個欄位allKO.txt）。這些將是完整的行（包括換行符號）。
如果grep失敗，請寫一個換行符，因為printf沒有。

這將導致 ID 不存在的行KEGG.annotations 被簡單地寫入輸出：

Metabolism Protein metabolism proteasome K02217  >aai:AARI_26600 ferritin-like protein; K02217 ferritin [EC:1.16.3.1]
This ID doesn’t exist: K99999

並且多次存在的 ID 被寫入附加行（不重複中的資料allKO.txt）：

Metabolism Protein metabolism proteasome K02217  >aai:AARI_26600 ferritin-like protein; K02217 ferritin [EC:1.16.3.1]
This is a hypothetical additional line from KEGG.annotations that mentions “K02217”.

Answer

這似乎符合您的要求：

while read w1 w2 w3 w4 ID
do
    printf "%s " "$w1 $w2 $w3 $w4 $ID"
    if ! grep "$ID" KEGG.annotations
    then
        echo
    fi
done < allKO.txt

這會將輸出寫入螢幕。將輸出 ( >) 重定向（例如> test1）新增到最後一行以擷取檔案中的輸出。

根據您的範例，鍵/ID 欄位（“模式”）是第五的五文件中的字段allKO.txt，所以我們read w1 w2 w3 w4 ID.你說這是一個製表符分隔的文件；我假設所有字段都不包含空格。
寫入 ( printf) 來自的行（即字段）allKO.txt，末尾有一個空格，但沒有終止換行符。
在( grep)KEGG.annotations文件中搜尋 ID（來自的行中的第五個欄位allKO.txt）。這些將是完整的行（包括換行符號）。
如果grep失敗，請寫一個換行符，因為printf沒有。

這將導致 ID 不存在的行KEGG.annotations 被簡單地寫入輸出：

Metabolism Protein metabolism proteasome K02217  >aai:AARI_26600 ferritin-like protein; K02217 ferritin [EC:1.16.3.1]
This ID doesn’t exist: K99999

並且多次存在的 ID 被寫入附加行（不重複中的資料allKO.txt）：

Metabolism Protein metabolism proteasome K02217  >aai:AARI_26600 ferritin-like protein; K02217 ferritin [EC:1.16.3.1]
This is a hypothetical additional line from KEGG.annotations that mentions “K02217”.

搜尋模式並將行附加到另一個文件

答案1

答案2

相關內容