Wie liest man eine Eingabedatei mit Zeichenfolgen, gleicht sie ab und ändert die Übereinstimmungen direkt vor Ort?

Question 1

Vorausgesetzt, dass die relevanten Zeilen results.txtnach dem Dateinamen keine Leerzeichen enthalten, awkfunktioniert das folgende Programm:

awk -v prefix="h-19/US/CA-" 'NR==FNR{fnames[$1]; next} \
    /^>/{name=substr($0,2); if (name in fnames) {sub(/^>/, ">" prefix)} }1' filenames.txt results.txt

Dadurch wird zuerst analysiert filenames.txtund dann results.txt.
Während der Analyse filenames.txt(wobei FNRder Zeilenzähler pro Datei gleich NRdem globalen Zeilenzähler ist) werden alle Dateinamen (die die einzigen Felder in der Zeile sind) in einem Array registriert fnames, die Ausführung dann aber sofort zur nächsten Zeile übersprungen.
Beim Parsen results.txtwird geprüft, ob eine Zeile mit beginnt >. Wenn ja, wird geprüft, ob die Teilzeichenfolge, die diesem Zeichen folgt (vorübergehend in gespeichert name), unter den „Array-Indizes“ von gefunden wird fnames. Wenn dies der Fall ist, wird sub()das führende >durch +das Präfix ersetzt, das als Variable >übergeben wurde (über die Direktive).awkprefix-v
Der scheinbare „Verirrte“ 1weist an, awkdie aktuelle Zeile einschließlich aller möglichen Änderungen auszudrucken (aber nur, weil results.txtwir diesen Teil bei der Verarbeitung der ersten Datei nicht erreichen).

Beachten Sie, dass awkes selbst keine Dateien direkt ändern kann, Sie müssen also mit einer temporären Datei arbeiten. Wenn Sie eine ausreichend neue Version von GNU Awk (> 4.1.0) haben, können Sie die Erweiterung jedoch verwenden ; natürlich müssen Sie dann die Option für die Datei inplacedeaktivieren :filenames.txt

awk -i inplace -v prefix=" ... " ' ... ' inplace=0 filenames.txt inplace=1 results.txt

Dadurch wird die direkte Bearbeitung für deaktiviert filenames.txtund für wieder aktiviert results.txt.

Answer

Vorausgesetzt, dass die relevanten Zeilen results.txtnach dem Dateinamen keine Leerzeichen enthalten, awkfunktioniert das folgende Programm:

awk -v prefix="h-19/US/CA-" 'NR==FNR{fnames[$1]; next} \
    /^>/{name=substr($0,2); if (name in fnames) {sub(/^>/, ">" prefix)} }1' filenames.txt results.txt

Dadurch wird zuerst analysiert filenames.txtund dann results.txt.
Während der Analyse filenames.txt(wobei FNRder Zeilenzähler pro Datei gleich NRdem globalen Zeilenzähler ist) werden alle Dateinamen (die die einzigen Felder in der Zeile sind) in einem Array registriert fnames, die Ausführung dann aber sofort zur nächsten Zeile übersprungen.
Beim Parsen results.txtwird geprüft, ob eine Zeile mit beginnt >. Wenn ja, wird geprüft, ob die Teilzeichenfolge, die diesem Zeichen folgt (vorübergehend in gespeichert name), unter den „Array-Indizes“ von gefunden wird fnames. Wenn dies der Fall ist, wird sub()das führende >durch +das Präfix ersetzt, das als Variable >übergeben wurde (über die Direktive).awkprefix-v
Der scheinbare „Verirrte“ 1weist an, awkdie aktuelle Zeile einschließlich aller möglichen Änderungen auszudrucken (aber nur, weil results.txtwir diesen Teil bei der Verarbeitung der ersten Datei nicht erreichen).

Beachten Sie, dass awkes selbst keine Dateien direkt ändern kann, Sie müssen also mit einer temporären Datei arbeiten. Wenn Sie eine ausreichend neue Version von GNU Awk (> 4.1.0) haben, können Sie die Erweiterung jedoch verwenden ; natürlich müssen Sie dann die Option für die Datei inplacedeaktivieren :filenames.txt

awk -i inplace -v prefix=" ... " ' ... ' inplace=0 filenames.txt inplace=1 results.txt

Dadurch wird die direkte Bearbeitung für deaktiviert filenames.txtund für wieder aktiviert results.txt.

Question 2

Mit sedkönnen Sie die Dateinamen im Haltebereich sammeln und dann alle Zeilen auf results.txtÜbereinstimmungen prüfen, um herauszufiltern, welche Zeilen geändert werden sollen:

sed -e '1,/^$/{H;1h;d;}' -e 'G;/^>\(.*\).*\n\1\n/s_^>_>h-19/US/CA-_;P;d' filename.txt <((echo)) results.txt

<((echo))Ihr seht, dass ich zwischen den Dateien eine Leerzeile mitgebe , die 1,/^$/alle Zeilen der ersten Datei (und die Leerzeile) anspricht.
Diese Zeilen werden an den Haltebereich angehängt und dann gelöscht H;1h;d( 1hvermeidet, den Haltebereich mit einer neuen Zeile zu beginnen).
Ghängt den Haltebereich an alle Zeilen von an result.txtund /^>$.*$.*\n\1\n/gleicht die Zeilen ab, die mit und einer Zeichenfolge beginnen >, die ein Dateiname ist (im Haltebereich in Zeilenumbrüche eingeschlossen)
s_^>_>h-19/US/CA-_ersetzt diese Zeile
P;ddruckt nur die erste Zeile ohne den angehängten Müll. Sie könnten s/\n.*//stattdessen

Answer

Mit sedkönnen Sie die Dateinamen im Haltebereich sammeln und dann alle Zeilen auf results.txtÜbereinstimmungen prüfen, um herauszufiltern, welche Zeilen geändert werden sollen:

sed -e '1,/^$/{H;1h;d;}' -e 'G;/^>\(.*\).*\n\1\n/s_^>_>h-19/US/CA-_;P;d' filename.txt <((echo)) results.txt

<((echo))Ihr seht, dass ich zwischen den Dateien eine Leerzeile mitgebe , die 1,/^$/alle Zeilen der ersten Datei (und die Leerzeile) anspricht.
Diese Zeilen werden an den Haltebereich angehängt und dann gelöscht H;1h;d( 1hvermeidet, den Haltebereich mit einer neuen Zeile zu beginnen).
Ghängt den Haltebereich an alle Zeilen von an result.txtund /^>$.*$.*\n\1\n/gleicht die Zeilen ab, die mit und einer Zeichenfolge beginnen >, die ein Dateiname ist (im Haltebereich in Zeilenumbrüche eingeschlossen)
s_^>_>h-19/US/CA-_ersetzt diese Zeile
P;ddruckt nur die erste Zeile ohne den angehängten Müll. Sie könnten s/\n.*//stattdessen

Question 3

perlFür direkte Änderungen an der Eingabedatei verwenden :

pfx='h-19/US/CA-' \
perl -pi -e '
  BEGIN { %h = map { tr/\n//dr => $ENV{pfx}} <STDIN>}
  s/^>\K(?=(.*))/$h{$1}/;
' results.txt < filename.txt

Answer

perlFür direkte Änderungen an der Eingabedatei verwenden :

pfx='h-19/US/CA-' \
perl -pi -e '
  BEGIN { %h = map { tr/\n//dr => $ENV{pfx}} <STDIN>}
  s/^>\K(?=(.*))/$h{$1}/;
' results.txt < filename.txt

Wie liest man eine Eingabedatei mit Zeichenfolgen, gleicht sie ab und ändert die Übereinstimmungen direkt vor Ort?

Antwort1

Antwort2

Antwort3

verwandte Informationen