awk を使用して必要な列を抽出し、新しいファイルを作成する方法は?

Question 1

各ファイルから関連するレコードを抽出し、その結果を 2 つの新しい一時ファイルに書き込む必要があります ( を使用する可能性もありますawk)。同時に、で並べ替えることもできますsort(サンプルファイルでは並べ替えられていると表示されますが、正しいキーで並べ替えられていない可能性があります)。ファイルの 1 つを処理する例を次に示します。

awk '$3 == "transcript" {printf("%s %s %s ", $3, $10, $12, $18);}' SampleA.GRCh38.gtf | sort -k 2 > tf1

次に、を使用しjoinて生成された 2 つの一時/中間ファイルをマージし、awk各レコードに各ファイルの 2 つの最終列が含まれるようにすることができます。

join使用できるコマンドの例を次に示します。

join -o 1.1,1.2,1.3,2.3 -1 2 -2 2 tf1 tf2

を実行する前にヘッダー行を印刷したり (たとえば、printfコマンドを使用) join、join出力内のスペースをタブに置き換えたり (たとえば、を使用sed)、別のawkスクリプトを使用して出力をフォーマットしたりすることもできます。

これらの例から、両方のファイルを処理して目的の出力を生成する (および一時ファイルのクリーンアップなどを行う) スクリプトをまとめることができるはずです。

awkデータファイルのサイズによっては、すべてを 1 つのプログラム(またはpythonやなど)で実行できる場合もありますperl(つまり、両方のファイルから選択したすべてのデータを一度にメモリに簡単に保持できます)。

Answer

各ファイルから関連するレコードを抽出し、その結果を 2 つの新しい一時ファイルに書き込む必要があります ( を使用する可能性もありますawk)。同時に、で並べ替えることもできますsort(サンプルファイルでは並べ替えられていると表示されますが、正しいキーで並べ替えられていない可能性があります)。ファイルの 1 つを処理する例を次に示します。

awk '$3 == "transcript" {printf("%s %s %s ", $3, $10, $12, $18);}' SampleA.GRCh38.gtf | sort -k 2 > tf1

次に、を使用しjoinて生成された 2 つの一時/中間ファイルをマージし、awk各レコードに各ファイルの 2 つの最終列が含まれるようにすることができます。

join使用できるコマンドの例を次に示します。

join -o 1.1,1.2,1.3,2.3 -1 2 -2 2 tf1 tf2

を実行する前にヘッダー行を印刷したり (たとえば、printfコマンドを使用) join、join出力内のスペースをタブに置き換えたり (たとえば、を使用sed)、別のawkスクリプトを使用して出力をフォーマットしたりすることもできます。

これらの例から、両方のファイルを処理して目的の出力を生成する (および一時ファイルのクリーンアップなどを行う) スクリプトをまとめることができるはずです。

awkデータファイルのサイズによっては、すべてを 1 つのプログラム(またはpythonやなど)で実行できる場合もありますperl(つまり、両方のファイルから選択したすべてのデータを一度にメモリに簡単に保持できます)。

Question 2

関心のある行にのみ18番目のフィールドがあるためjoin、ファイルを選択してawkそれらを除外することができます。他のすべての行には2つのフィールドしかありません。NF==4

また、へのパスの計算について特定の仮定を立てていますSampleBが、それに合わせて修正することができます。

while IFS= read -r -d '' f; do                             #read the list of SampleA
        g=$(echo "$f" | sed "s/pleA/pleB/g")               #calculate path to SampleB
        if [[ -f "$g" ]]; then                             #check SampleB exists
                echo "$f" | sed "s/.*pleA\.//g"            #print sample No
                echo "Type transcript_id SampleA SampleB"  #print header
                                                           #do the join
                join -j 12 -o 1.3 -o 1.12 -o 1.18 -o2.18 <(sort -k 12 "$f") <(sort -k 12 "$g") | awk 'NF==4'
        fi   | sed 's/[;"]//g'| column -t                  #make it pretty
done < <(find . -type f -iname "*SampleA*" -print0)        #NULL separated list of SampleA

Answer

関心のある行にのみ18番目のフィールドがあるためjoin、ファイルを選択してawkそれらを除外することができます。他のすべての行には2つのフィールドしかありません。NF==4

また、へのパスの計算について特定の仮定を立てていますSampleBが、それに合わせて修正することができます。

while IFS= read -r -d '' f; do                             #read the list of SampleA
        g=$(echo "$f" | sed "s/pleA/pleB/g")               #calculate path to SampleB
        if [[ -f "$g" ]]; then                             #check SampleB exists
                echo "$f" | sed "s/.*pleA\.//g"            #print sample No
                echo "Type transcript_id SampleA SampleB"  #print header
                                                           #do the join
                join -j 12 -o 1.3 -o 1.12 -o 1.18 -o2.18 <(sort -k 12 "$f") <(sort -k 12 "$g") | awk 'NF==4'
        fi   | sed 's/[;"]//g'| column -t                  #make it pretty
done < <(find . -type f -iname "*SampleA*" -print0)        #NULL separated list of SampleA

Question 3

以下のコマンドを試しました

ステップ1

awk '$3 ~ /transcript/{print $0}' file1|awk '{print $3,substr($12,2,12),substr($NF,2,8)}' > out1

ステップ2

awk '$3 == "transcript" {print substr($NF,2,8)}' file2  > out2

ステップ3

paste out out1.txt | awk 'BEGIN{print "Type        transcript_id      SampleA      SampleB"}{print $0}'



Output

Type       transcript_id SampleA    SampleB
transcript MSTRG.7542.2 0.000000    1.000000
transcript MSTRG.7542.6 0.000000    3.000000
transcript MSTRG.7542.5 0.000000    0.000000

Answer

以下のコマンドを試しました

ステップ1

awk '$3 ~ /transcript/{print $0}' file1|awk '{print $3,substr($12,2,12),substr($NF,2,8)}' > out1

ステップ2

awk '$3 == "transcript" {print substr($NF,2,8)}' file2  > out2

ステップ3

paste out out1.txt | awk 'BEGIN{print "Type        transcript_id      SampleA      SampleB"}{print $0}'



Output

Type       transcript_id SampleA    SampleB
transcript MSTRG.7542.2 0.000000    1.000000
transcript MSTRG.7542.6 0.000000    3.000000
transcript MSTRG.7542.5 0.000000    0.000000

awk を使用して必要な列を抽出し、新しいファイルを作成する方法は?

答え1

答え2

答え3

関連情報