Como usar o awk para extrair as colunas necessárias e criar um novo arquivo?

Question 1

Você precisará extrair os registros relevantes de cada arquivo e gravar o resultado em dois novos arquivos temporários (possivelmente usando awk), possivelmente classificando-os (com sort) ao mesmo tempo (os arquivos de amostra dizem que estão classificados, mas talvez não no correto chave). Aqui está um exemplo de processamento de um dos arquivos:

awk '$3 == "transcript" {printf("%s %s %s ", $3, $10, $12, $18);}' SampleA.GRCh38.gtf | sort -k 2 > tf1

Então você pode usar joinpara mesclar os dois arquivos temporários/intermediários gerados por awkpara que cada registro tenha as duas colunas finais de cada arquivo.

Aqui está um exemplo de um joincomando que você pode usar:

join -o 1.1,1.2,1.3,2.3 -1 2 -2 2 tf1 tf2

Você pode querer imprimir uma linha de cabeçalho (por exemplo, usando o printfcomando) antes de executar joine substituir espaços na joinsaída por tabulações (por exemplo, usando sed) ou usar outro awkscript para formatar a saída.

A partir desses exemplos, você poderá montar um script que processará ambos os arquivos e produzirá a saída desejada (e limpará os arquivos temporários, etc.).

Observe que dependendo do tamanho dos arquivos de dados você pode até ser capaz de fazer tudo em um awk(ou pythonou perl, etc.) programa (ou seja, todos os dados selecionados de ambos os arquivos podem ser facilmente mantidos na memória de uma só vez).

Answer

Você precisará extrair os registros relevantes de cada arquivo e gravar o resultado em dois novos arquivos temporários (possivelmente usando awk), possivelmente classificando-os (com sort) ao mesmo tempo (os arquivos de amostra dizem que estão classificados, mas talvez não no correto chave). Aqui está um exemplo de processamento de um dos arquivos:

awk '$3 == "transcript" {printf("%s %s %s ", $3, $10, $12, $18);}' SampleA.GRCh38.gtf | sort -k 2 > tf1

Então você pode usar joinpara mesclar os dois arquivos temporários/intermediários gerados por awkpara que cada registro tenha as duas colunas finais de cada arquivo.

Aqui está um exemplo de um joincomando que você pode usar:

join -o 1.1,1.2,1.3,2.3 -1 2 -2 2 tf1 tf2

Você pode querer imprimir uma linha de cabeçalho (por exemplo, usando o printfcomando) antes de executar joine substituir espaços na joinsaída por tabulações (por exemplo, usando sed) ou usar outro awkscript para formatar a saída.

A partir desses exemplos, você poderá montar um script que processará ambos os arquivos e produzirá a saída desejada (e limpará os arquivos temporários, etc.).

Observe que dependendo do tamanho dos arquivos de dados você pode até ser capaz de fazer tudo em um awk(ou pythonou perl, etc.) programa (ou seja, todos os dados selecionados de ambos os arquivos podem ser facilmente mantidos na memória de uma só vez).

Question 2

Você pode apenas joinos arquivos e depois awkretirar aqueles com NF==4apenas as linhas de seu interesse, que têm um 18º campo. Todas as outras linhas terão apenas 2 campos

Também fazendo certas suposições sobre o cálculo do caminho para SampleB, no entanto, você pode alterar isso para se adequar....

while IFS= read -r -d '' f; do                             #read the list of SampleA
        g=$(echo "$f" | sed "s/pleA/pleB/g")               #calculate path to SampleB
        if [[ -f "$g" ]]; then                             #check SampleB exists
                echo "$f" | sed "s/.*pleA\.//g"            #print sample No
                echo "Type transcript_id SampleA SampleB"  #print header
                                                           #do the join
                join -j 12 -o 1.3 -o 1.12 -o 1.18 -o2.18 <(sort -k 12 "$f") <(sort -k 12 "$g") | awk 'NF==4'
        fi   | sed 's/[;"]//g'| column -t                  #make it pretty
done < <(find . -type f -iname "*SampleA*" -print0)        #NULL separated list of SampleA

Answer

Você pode apenas joinos arquivos e depois awkretirar aqueles com NF==4apenas as linhas de seu interesse, que têm um 18º campo. Todas as outras linhas terão apenas 2 campos

Também fazendo certas suposições sobre o cálculo do caminho para SampleB, no entanto, você pode alterar isso para se adequar....

while IFS= read -r -d '' f; do                             #read the list of SampleA
        g=$(echo "$f" | sed "s/pleA/pleB/g")               #calculate path to SampleB
        if [[ -f "$g" ]]; then                             #check SampleB exists
                echo "$f" | sed "s/.*pleA\.//g"            #print sample No
                echo "Type transcript_id SampleA SampleB"  #print header
                                                           #do the join
                join -j 12 -o 1.3 -o 1.12 -o 1.18 -o2.18 <(sort -k 12 "$f") <(sort -k 12 "$g") | awk 'NF==4'
        fi   | sed 's/[;"]//g'| column -t                  #make it pretty
done < <(find . -type f -iname "*SampleA*" -print0)        #NULL separated list of SampleA

Question 3

Tentei com o comando abaixo

Passo 1

awk '$3 ~ /transcript/{print $0}' file1|awk '{print $3,substr($12,2,12),substr($NF,2,8)}' > out1

PASSO 2

awk '$3 == "transcript" {print substr($NF,2,8)}' file2  > out2

ETAPA 3

paste out out1.txt | awk 'BEGIN{print "Type        transcript_id      SampleA      SampleB"}{print $0}'



Output

Type       transcript_id SampleA    SampleB
transcript MSTRG.7542.2 0.000000    1.000000
transcript MSTRG.7542.6 0.000000    3.000000
transcript MSTRG.7542.5 0.000000    0.000000

Answer

Tentei com o comando abaixo

Passo 1

awk '$3 ~ /transcript/{print $0}' file1|awk '{print $3,substr($12,2,12),substr($NF,2,8)}' > out1

PASSO 2

awk '$3 == "transcript" {print substr($NF,2,8)}' file2  > out2

ETAPA 3

paste out out1.txt | awk 'BEGIN{print "Type        transcript_id      SampleA      SampleB"}{print $0}'



Output

Type       transcript_id SampleA    SampleB
transcript MSTRG.7542.2 0.000000    1.000000
transcript MSTRG.7542.6 0.000000    3.000000
transcript MSTRG.7542.5 0.000000    0.000000

Como usar o awk para extrair as colunas necessárias e criar um novo arquivo?

Responder1

Responder2

Responder3

informação relacionada