Grep zum Suchen von Mustern in einer Datei

Question 1

Wenn Sie nichts gegen eine zusätzliche Spalte mit einer Zahl darin haben, können Sie hierfür joinund verwenden.grep

$ join <(grep -of patterns.txt file.txt | nl) \
       <(grep -f patterns.txt file.txt | nl)
1 KO3322 proteinaseK (KO3322)
2 KO3435 Xxxxx KO3435;folding factor
3 KO3435 Yyyyy KO3435,xxxx

Answer

Wenn Sie nichts gegen eine zusätzliche Spalte mit einer Zahl darin haben, können Sie hierfür joinund verwenden.grep

$ join <(grep -of patterns.txt file.txt | nl) \
       <(grep -f patterns.txt file.txt | nl)
1 KO3322 proteinaseK (KO3322)
2 KO3435 Xxxxx KO3435;folding factor
3 KO3435 Yyyyy KO3435,xxxx

Question 2

Sie können eine Shell-Schleife verwenden:

$ while read pat; do 
    grep "$pat" file | 
        while read match do 
            echo -e "$pat\t$match"
        done
 done < patterns 
KO3435  Xxxxx KO3435;folding factor
KO3435  Yyyyy KO3435,xxxx
KO3322  proteinaseK (KO3322)

Ich habe es getestet, indem ich es auf der UniProt-Flatfile für Menschen (625 MB) ausgeführt und 1000 UniProt-IDs als Muster verwendet habe. Auf meinem Pentium i7-Laptop hat es ungefähr 6 Minuten gedauert. Als ich nur nach 100 Mustern gesucht habe, hat es ungefähr 35 Sekunden gedauert.

Wie in den Kommentaren weiter unten erwähnt, können Sie dies etwas beschleunigen, indem Sie die - und -Befehle überspringen und Optionen echoverwenden :grep--label-H

$ while read pat; do 
    grep "$pat" --label="$pat" -H < file
done < patterns

Wenn Sie dies auf Ihre Beispieldateien anwenden, wird Folgendes erzeugt:

$ while read pat; do 
    grep "$pat" --label="$pat" -H < kegg.annotations; 
  done < allKO.IDs.txt > test1
terdon@oregano foo $ cat test1 
K02217:>aai:AARI_26600  ferritin-like protein; K02217 ferritin [EC:1.16.3.1]
K07448:>aai:AARI_33320  mrr; restriction system protein Mrr; K07448 restriction system protein

Answer

Sie können eine Shell-Schleife verwenden:

$ while read pat; do 
    grep "$pat" file | 
        while read match do 
            echo -e "$pat\t$match"
        done
 done < patterns 
KO3435  Xxxxx KO3435;folding factor
KO3435  Yyyyy KO3435,xxxx
KO3322  proteinaseK (KO3322)

Ich habe es getestet, indem ich es auf der UniProt-Flatfile für Menschen (625 MB) ausgeführt und 1000 UniProt-IDs als Muster verwendet habe. Auf meinem Pentium i7-Laptop hat es ungefähr 6 Minuten gedauert. Als ich nur nach 100 Mustern gesucht habe, hat es ungefähr 35 Sekunden gedauert.

Wie in den Kommentaren weiter unten erwähnt, können Sie dies etwas beschleunigen, indem Sie die - und -Befehle überspringen und Optionen echoverwenden :grep--label-H

$ while read pat; do 
    grep "$pat" --label="$pat" -H < file
done < patterns

Wenn Sie dies auf Ihre Beispieldateien anwenden, wird Folgendes erzeugt:

$ while read pat; do 
    grep "$pat" --label="$pat" -H < kegg.annotations; 
  done < allKO.IDs.txt > test1
terdon@oregano foo $ cat test1 
K02217:>aai:AARI_26600  ferritin-like protein; K02217 ferritin [EC:1.16.3.1]
K07448:>aai:AARI_33320  mrr; restriction system protein Mrr; K07448 restriction system protein

Question 3

Sie könnenack:

$ ack "$(tr '\n' '|' < pattern.txt | sed -e 's/.$//')" --print0 --output='$& $_' file.txt
KO3322 proteinaseK (KO3322)
KO3435 Xxxxx KO3435;folding factor
KO3435 Yyyyy KO3435,xxxx

Answer

Sie könnenack:

$ ack "$(tr '\n' '|' < pattern.txt | sed -e 's/.$//')" --print0 --output='$& $_' file.txt
KO3322 proteinaseK (KO3322)
KO3435 Xxxxx KO3435;folding factor
KO3435 Yyyyy KO3435,xxxx

Grep zum Suchen von Mustern in einer Datei

Antwort1

Antwort2

Antwort3

verwandte Informationen