Ersetzen der Sequenz-IDs der Fasta-Datei basierend auf den neuen IDs aus einer Liste

Question 1

Verwendung von awk:

awk -F'\t' '
  NR==FNR{ a[$1]=$2; next }
  /^>/{ 
    id=a[substr($0, 2)]
    if (id!=""){ print ">" id; next }
  }
  1
' textfile file.fasta

Lesen Sie zunächst die Textdatei mit der Zuordnung und speichern Sie das zweite Feld im Array, awobei Sie das erste Feld als Index verwenden. Springen Sie zum nextDatensatz.

Lesen Sie dann die Fasta-Datei. Wenn der Datensatz mit beginnt >, suchen Sie die neue ID aus dem Array, indem Sie das erste Zeichen aus dem aktuellen Datensatz entfernen ( substr($0, 2)) und diesen Wert als Array-Index verwenden.
Wenn die ID nicht leer ist, drucken Sie >die ID und springen Sie zum nextDatensatz.

Druckt 1den aktuellen Datensatz (die Sequenzen oder nicht übereinstimmenden IDs).

Answer

Verwendung von awk:

awk -F'\t' '
  NR==FNR{ a[$1]=$2; next }
  /^>/{ 
    id=a[substr($0, 2)]
    if (id!=""){ print ">" id; next }
  }
  1
' textfile file.fasta

Lesen Sie zunächst die Textdatei mit der Zuordnung und speichern Sie das zweite Feld im Array, awobei Sie das erste Feld als Index verwenden. Springen Sie zum nextDatensatz.

Lesen Sie dann die Fasta-Datei. Wenn der Datensatz mit beginnt >, suchen Sie die neue ID aus dem Array, indem Sie das erste Zeichen aus dem aktuellen Datensatz entfernen ( substr($0, 2)) und diesen Wert als Array-Index verwenden.
Wenn die ID nicht leer ist, drucken Sie >die ID und springen Sie zum nextDatensatz.

Druckt 1den aktuellen Datensatz (die Sequenzen oder nicht übereinstimmenden IDs).

Question 2

awk -F'\t' '
    NR==FNR { map[">"$1] = ">"$2; next }
    $0 in map { $0 = map[$0] }
    { print }
' mapfile fastafile

Answer

awk -F'\t' '
    NR==FNR { map[">"$1] = ">"$2; next }
    $0 in map { $0 = map[$0] }
    { print }
' mapfile fastafile

Ersetzen der Sequenz-IDs der Fasta-Datei basierend auf den neuen IDs aus einer Liste

Antwort1

Antwort2

verwandte Informationen