Wie verwende ich awk, um die erforderlichen Spalten zu extrahieren und eine neue Datei zu erstellen?

Question 1

Sie müssen die relevanten Datensätze aus jeder Datei extrahieren und das Ergebnis in zwei neue temporäre Dateien schreiben (möglicherweise mit awk), wobei Sie es möglicherweise sortgleichzeitig (mit ) sortieren müssen (die Beispieldateien geben an, dass sie sortiert sind, aber möglicherweise nicht nach dem richtigen Schlüssel). Hier ist ein Beispiel für die Verarbeitung einer der Dateien:

awk '$3 == "transcript" {printf("%s %s %s ", $3, $10, $12, $18);}' SampleA.GRCh38.gtf | sort -k 2 > tf1

Anschließend können Sie joindie beiden von generierten temporären/Zwischendateien zusammenführen, awksodass jeder Datensatz die beiden letzten Spalten aus jeder Datei enthält.

Hier ist ein Beispiel für einen joinBefehl, den Sie verwenden könnten:

join -o 1.1,1.2,1.3,2.3 -1 2 -2 2 tf1 tf2

Möglicherweise möchten Sie vor dem Ausführen eine Kopfzeile drucken (z. B. mithilfe des printfBefehls) , Leerzeichen in der Ausgabe durch Tabulatoren joinersetzen (z. B. mithilfe von ) oder ein anderes Skript zum Formatieren der Ausgabe verwenden.joinsedawk

Anhand dieser Beispiele sollten Sie in der Lage sein, ein Skript zusammenzustellen, das beide Dateien verarbeitet und die gewünschte Ausgabe erzeugt (und die temporären Dateien usw. bereinigt).

Beachten Sie, dass Sie je nach Größe der Datendateien möglicherweise sogar alles in einem awk(oder pythonoder perlusw.) Programm erledigen können (d. h. können alle ausgewählten Daten aus beiden Dateien problemlos gleichzeitig im Speicher gehalten werden).

Answer

Sie müssen die relevanten Datensätze aus jeder Datei extrahieren und das Ergebnis in zwei neue temporäre Dateien schreiben (möglicherweise mit awk), wobei Sie es möglicherweise sortgleichzeitig (mit ) sortieren müssen (die Beispieldateien geben an, dass sie sortiert sind, aber möglicherweise nicht nach dem richtigen Schlüssel). Hier ist ein Beispiel für die Verarbeitung einer der Dateien:

awk '$3 == "transcript" {printf("%s %s %s ", $3, $10, $12, $18);}' SampleA.GRCh38.gtf | sort -k 2 > tf1

Anschließend können Sie joindie beiden von generierten temporären/Zwischendateien zusammenführen, awksodass jeder Datensatz die beiden letzten Spalten aus jeder Datei enthält.

Hier ist ein Beispiel für einen joinBefehl, den Sie verwenden könnten:

join -o 1.1,1.2,1.3,2.3 -1 2 -2 2 tf1 tf2

Möglicherweise möchten Sie vor dem Ausführen eine Kopfzeile drucken (z. B. mithilfe des printfBefehls) , Leerzeichen in der Ausgabe durch Tabulatoren joinersetzen (z. B. mithilfe von ) oder ein anderes Skript zum Formatieren der Ausgabe verwenden.joinsedawk

Anhand dieser Beispiele sollten Sie in der Lage sein, ein Skript zusammenzustellen, das beide Dateien verarbeitet und die gewünschte Ausgabe erzeugt (und die temporären Dateien usw. bereinigt).

Beachten Sie, dass Sie je nach Größe der Datendateien möglicherweise sogar alles in einem awk(oder pythonoder perlusw.) Programm erledigen können (d. h. können alle ausgewählten Daten aus beiden Dateien problemlos gleichzeitig im Speicher gehalten werden).

Question 2

Sie können nur joindie Dateien und dann awkdiejenigen mit herausnehmen, NF==4da nur die Zeilen, die Sie interessieren, ein 18. Feld haben. Alle anderen Zeilen haben nur 2 Felder

Außerdem werden bei der Berechnung des Pfads zu bestimmte Annahmen getroffen SampleB, Sie können diese jedoch entsprechend ändern....

while IFS= read -r -d '' f; do                             #read the list of SampleA
        g=$(echo "$f" | sed "s/pleA/pleB/g")               #calculate path to SampleB
        if [[ -f "$g" ]]; then                             #check SampleB exists
                echo "$f" | sed "s/.*pleA\.//g"            #print sample No
                echo "Type transcript_id SampleA SampleB"  #print header
                                                           #do the join
                join -j 12 -o 1.3 -o 1.12 -o 1.18 -o2.18 <(sort -k 12 "$f") <(sort -k 12 "$g") | awk 'NF==4'
        fi   | sed 's/[;"]//g'| column -t                  #make it pretty
done < <(find . -type f -iname "*SampleA*" -print0)        #NULL separated list of SampleA

Answer

Sie können nur joindie Dateien und dann awkdiejenigen mit herausnehmen, NF==4da nur die Zeilen, die Sie interessieren, ein 18. Feld haben. Alle anderen Zeilen haben nur 2 Felder

Außerdem werden bei der Berechnung des Pfads zu bestimmte Annahmen getroffen SampleB, Sie können diese jedoch entsprechend ändern....

while IFS= read -r -d '' f; do                             #read the list of SampleA
        g=$(echo "$f" | sed "s/pleA/pleB/g")               #calculate path to SampleB
        if [[ -f "$g" ]]; then                             #check SampleB exists
                echo "$f" | sed "s/.*pleA\.//g"            #print sample No
                echo "Type transcript_id SampleA SampleB"  #print header
                                                           #do the join
                join -j 12 -o 1.3 -o 1.12 -o 1.18 -o2.18 <(sort -k 12 "$f") <(sort -k 12 "$g") | awk 'NF==4'
        fi   | sed 's/[;"]//g'| column -t                  #make it pretty
done < <(find . -type f -iname "*SampleA*" -print0)        #NULL separated list of SampleA

Question 3

Mit dem Befehl Below versucht

Schritt 1

awk '$3 ~ /transcript/{print $0}' file1|awk '{print $3,substr($12,2,12),substr($NF,2,8)}' > out1

SCHRITT 2

awk '$3 == "transcript" {print substr($NF,2,8)}' file2  > out2

SCHRITT 3

paste out out1.txt | awk 'BEGIN{print "Type        transcript_id      SampleA      SampleB"}{print $0}'



Output

Type       transcript_id SampleA    SampleB
transcript MSTRG.7542.2 0.000000    1.000000
transcript MSTRG.7542.6 0.000000    3.000000
transcript MSTRG.7542.5 0.000000    0.000000

Answer

Mit dem Befehl Below versucht

Schritt 1

awk '$3 ~ /transcript/{print $0}' file1|awk '{print $3,substr($12,2,12),substr($NF,2,8)}' > out1

SCHRITT 2

awk '$3 == "transcript" {print substr($NF,2,8)}' file2  > out2

SCHRITT 3

paste out out1.txt | awk 'BEGIN{print "Type        transcript_id      SampleA      SampleB"}{print $0}'



Output

Type       transcript_id SampleA    SampleB
transcript MSTRG.7542.2 0.000000    1.000000
transcript MSTRG.7542.6 0.000000    3.000000
transcript MSTRG.7542.5 0.000000    0.000000

Wie verwende ich awk, um die erforderlichen Spalten zu extrahieren und eine neue Datei zu erstellen?

Antwort1

Antwort2

Antwort3

verwandte Informationen