awk를 사용하여 필요한 열을 추출하고 새 파일을 만드는 방법은 무엇입니까?

Question 1

각 파일에서 관련 레코드를 추출하고 그 결과를 두 개의 새 임시 파일(아마도 사용하여)에 기록해야 하며 동시에 awk정렬( 사용)해야 합니다 (샘플 파일에서는 정렬되었다고 나와 있지만 올바른 파일이 아닐 수도 있음). sort열쇠). 다음은 파일 중 하나를 처리하는 예입니다.

awk '$3 == "transcript" {printf("%s %s %s ", $3, $10, $12, $18);}' SampleA.GRCh38.gtf | sort -k 2 > tf1

그런 다음 각 레코드가 각 파일의 두 개의 최종 열을 갖도록 에서 join생성된 두 개의 임시/중간 파일을 병합하는 데 사용할 수 있습니다 .awk

join다음은 사용할 수 있는 명령 의 예입니다 .

join -o 1.1,1.2,1.3,2.3 -1 2 -2 2 tf1 tf2

를 실행하기 전에 헤더 라인을 인쇄하고(예: 명령 사용 printf) 출력의 공백을 탭으로 join바꾸 거나(예: 사용) 다른 스크립트를 사용하여 출력 형식을 지정할 수 있습니다.joinsedawk

이러한 예를 통해 두 파일을 모두 처리하고 원하는 출력을 생성하는 스크립트를 함께 구성할 수 있습니다(임시 파일 정리 등).

데이터 파일의 크기에 따라 하나 awk(또는 python또는 perl등) 프로그램에서 모든 작업을 수행할 수도 있습니다(즉, 두 파일에서 선택한 모든 데이터를 한 번에 메모리에 쉽게 보관할 수 있음).

Answer

각 파일에서 관련 레코드를 추출하고 그 결과를 두 개의 새 임시 파일(아마도 사용하여)에 기록해야 하며 동시에 awk정렬( 사용)해야 합니다 (샘플 파일에서는 정렬되었다고 나와 있지만 올바른 파일이 아닐 수도 있음). sort열쇠). 다음은 파일 중 하나를 처리하는 예입니다.

awk '$3 == "transcript" {printf("%s %s %s ", $3, $10, $12, $18);}' SampleA.GRCh38.gtf | sort -k 2 > tf1

그런 다음 각 레코드가 각 파일의 두 개의 최종 열을 갖도록 에서 join생성된 두 개의 임시/중간 파일을 병합하는 데 사용할 수 있습니다 .awk

join다음은 사용할 수 있는 명령 의 예입니다 .

join -o 1.1,1.2,1.3,2.3 -1 2 -2 2 tf1 tf2

를 실행하기 전에 헤더 라인을 인쇄하고(예: 명령 사용 printf) 출력의 공백을 탭으로 join바꾸 거나(예: 사용) 다른 스크립트를 사용하여 출력 형식을 지정할 수 있습니다.joinsedawk

이러한 예를 통해 두 파일을 모두 처리하고 원하는 출력을 생성하는 스크립트를 함께 구성할 수 있습니다(임시 파일 정리 등).

데이터 파일의 크기에 따라 하나 awk(또는 python또는 perl등) 프로그램에서 모든 작업을 수행할 수도 있습니다(즉, 두 파일에서 선택한 모든 데이터를 한 번에 메모리에 쉽게 보관할 수 있음).

Question 2

join파일만 선택한 다음 관심 있는 줄만 18번째 필드에 awk포함 되도록 할 수 있습니다 . NF==4다른 모든 줄에는 2개의 필드만 있습니다.

또한 에 대한 경로 계산에 대해 특정 가정을 설정 SampleB하지만 이를 적절하게 수정할 수 있습니다....

while IFS= read -r -d '' f; do                             #read the list of SampleA
        g=$(echo "$f" | sed "s/pleA/pleB/g")               #calculate path to SampleB
        if [[ -f "$g" ]]; then                             #check SampleB exists
                echo "$f" | sed "s/.*pleA\.//g"            #print sample No
                echo "Type transcript_id SampleA SampleB"  #print header
                                                           #do the join
                join -j 12 -o 1.3 -o 1.12 -o 1.18 -o2.18 <(sort -k 12 "$f") <(sort -k 12 "$g") | awk 'NF==4'
        fi   | sed 's/[;"]//g'| column -t                  #make it pretty
done < <(find . -type f -iname "*SampleA*" -print0)        #NULL separated list of SampleA

Answer

join파일만 선택한 다음 관심 있는 줄만 18번째 필드에 awk포함 되도록 할 수 있습니다 . NF==4다른 모든 줄에는 2개의 필드만 있습니다.

또한 에 대한 경로 계산에 대해 특정 가정을 설정 SampleB하지만 이를 적절하게 수정할 수 있습니다....

while IFS= read -r -d '' f; do                             #read the list of SampleA
        g=$(echo "$f" | sed "s/pleA/pleB/g")               #calculate path to SampleB
        if [[ -f "$g" ]]; then                             #check SampleB exists
                echo "$f" | sed "s/.*pleA\.//g"            #print sample No
                echo "Type transcript_id SampleA SampleB"  #print header
                                                           #do the join
                join -j 12 -o 1.3 -o 1.12 -o 1.18 -o2.18 <(sort -k 12 "$f") <(sort -k 12 "$g") | awk 'NF==4'
        fi   | sed 's/[;"]//g'| column -t                  #make it pretty
done < <(find . -type f -iname "*SampleA*" -print0)        #NULL separated list of SampleA

Question 3

아래 명령으로 시도했습니다.

1 단계

awk '$3 ~ /transcript/{print $0}' file1|awk '{print $3,substr($12,2,12),substr($NF,2,8)}' > out1

2 단계

awk '$3 == "transcript" {print substr($NF,2,8)}' file2  > out2

STEP3

paste out out1.txt | awk 'BEGIN{print "Type        transcript_id      SampleA      SampleB"}{print $0}'



Output

Type       transcript_id SampleA    SampleB
transcript MSTRG.7542.2 0.000000    1.000000
transcript MSTRG.7542.6 0.000000    3.000000
transcript MSTRG.7542.5 0.000000    0.000000

Answer

아래 명령으로 시도했습니다.

1 단계

awk '$3 ~ /transcript/{print $0}' file1|awk '{print $3,substr($12,2,12),substr($NF,2,8)}' > out1

2 단계

awk '$3 == "transcript" {print substr($NF,2,8)}' file2  > out2

STEP3

paste out out1.txt | awk 'BEGIN{print "Type        transcript_id      SampleA      SampleB"}{print $0}'



Output

Type       transcript_id SampleA    SampleB
transcript MSTRG.7542.2 0.000000    1.000000
transcript MSTRG.7542.6 0.000000    3.000000
transcript MSTRG.7542.5 0.000000    0.000000

awk를 사용하여 필요한 열을 추출하고 새 파일을 만드는 방법은 무엇입니까?

답변1

답변2

답변3

관련 정보