Как использовать awk для извлечения необходимых столбцов и создания нового файла?

Question 1

Вам нужно будет извлечь соответствующие записи из каждого файла и записать результат в два новых временных файла (возможно, используя awk), возможно, сортируя его (с помощью sort) одновременно (файлы примеров говорят, что они отсортированы, но, возможно, не по правильному ключу). Вот пример обработки одного из файлов:

awk '$3 == "transcript" {printf("%s %s %s ", $3, $10, $12, $18);}' SampleA.GRCh38.gtf | sort -k 2 > tf1

Затем вы можете использовать joinдля объединения двух временных/промежуточных файлов, сгенерированных с помощью , awkтак чтобы каждая запись имела два конечных столбца из каждого файла.

Вот пример команды, joinкоторую вы можете использовать:

join -o 1.1,1.2,1.3,2.3 -1 2 -2 2 tf1 tf2

Возможно, вам захочется напечатать строку заголовка (например, с помощью printfкоманды ) перед запуском join, а также заменить пробелы в joinвыводе на символы табуляции (например, с помощью sed) или использовать другой awkскрипт для форматирования вывода.

На основе этих примеров вы сможете составить скрипт, который обработает оба файла и выдаст желаемый результат (а также очистит временные файлы и т. д.).

Обратите внимание, что в зависимости от размера файлов данных вы даже можете иметь возможность сделать все в одной awk(или pythonи perlт. д.) программе (т. е. можно ли легко хранить все выбранные данные из обоих файлов в памяти одновременно).

Answer

Вам нужно будет извлечь соответствующие записи из каждого файла и записать результат в два новых временных файла (возможно, используя awk), возможно, сортируя его (с помощью sort) одновременно (файлы примеров говорят, что они отсортированы, но, возможно, не по правильному ключу). Вот пример обработки одного из файлов:

awk '$3 == "transcript" {printf("%s %s %s ", $3, $10, $12, $18);}' SampleA.GRCh38.gtf | sort -k 2 > tf1

Затем вы можете использовать joinдля объединения двух временных/промежуточных файлов, сгенерированных с помощью , awkтак чтобы каждая запись имела два конечных столбца из каждого файла.

Вот пример команды, joinкоторую вы можете использовать:

join -o 1.1,1.2,1.3,2.3 -1 2 -2 2 tf1 tf2

Возможно, вам захочется напечатать строку заголовка (например, с помощью printfкоманды ) перед запуском join, а также заменить пробелы в joinвыводе на символы табуляции (например, с помощью sed) или использовать другой awkскрипт для форматирования вывода.

На основе этих примеров вы сможете составить скрипт, который обработает оба файла и выдаст желаемый результат (а также очистит временные файлы и т. д.).

Обратите внимание, что в зависимости от размера файлов данных вы даже можете иметь возможность сделать все в одной awk(или pythonи perlт. д.) программе (т. е. можно ли легко хранить все выбранные данные из обоих файлов в памяти одновременно).

Question 2

Вы можете просто joinфайлы, а затем awkте, которые имеют NF==4только те строки, которые вас интересуют, имеют 18-е поле. Все остальные строки будут иметь только 2 поля

Также делаем определенные предположения относительно расчета пути к SampleB, однако вы можете изменить его по своему усмотрению....

while IFS= read -r -d '' f; do                             #read the list of SampleA
        g=$(echo "$f" | sed "s/pleA/pleB/g")               #calculate path to SampleB
        if [[ -f "$g" ]]; then                             #check SampleB exists
                echo "$f" | sed "s/.*pleA\.//g"            #print sample No
                echo "Type transcript_id SampleA SampleB"  #print header
                                                           #do the join
                join -j 12 -o 1.3 -o 1.12 -o 1.18 -o2.18 <(sort -k 12 "$f") <(sort -k 12 "$g") | awk 'NF==4'
        fi   | sed 's/[;"]//g'| column -t                  #make it pretty
done < <(find . -type f -iname "*SampleA*" -print0)        #NULL separated list of SampleA

Answer

Вы можете просто joinфайлы, а затем awkте, которые имеют NF==4только те строки, которые вас интересуют, имеют 18-е поле. Все остальные строки будут иметь только 2 поля

Также делаем определенные предположения относительно расчета пути к SampleB, однако вы можете изменить его по своему усмотрению....

while IFS= read -r -d '' f; do                             #read the list of SampleA
        g=$(echo "$f" | sed "s/pleA/pleB/g")               #calculate path to SampleB
        if [[ -f "$g" ]]; then                             #check SampleB exists
                echo "$f" | sed "s/.*pleA\.//g"            #print sample No
                echo "Type transcript_id SampleA SampleB"  #print header
                                                           #do the join
                join -j 12 -o 1.3 -o 1.12 -o 1.18 -o2.18 <(sort -k 12 "$f") <(sort -k 12 "$g") | awk 'NF==4'
        fi   | sed 's/[;"]//g'| column -t                  #make it pretty
done < <(find . -type f -iname "*SampleA*" -print0)        #NULL separated list of SampleA

Question 3

Пробовал с помощью команды ниже

Шаг 1

awk '$3 ~ /transcript/{print $0}' file1|awk '{print $3,substr($12,2,12),substr($NF,2,8)}' > out1

ШАГ 2

awk '$3 == "transcript" {print substr($NF,2,8)}' file2  > out2

ШАГ 3

paste out out1.txt | awk 'BEGIN{print "Type        transcript_id      SampleA      SampleB"}{print $0}'



Output

Type       transcript_id SampleA    SampleB
transcript MSTRG.7542.2 0.000000    1.000000
transcript MSTRG.7542.6 0.000000    3.000000
transcript MSTRG.7542.5 0.000000    0.000000

Answer

Пробовал с помощью команды ниже

Шаг 1

awk '$3 ~ /transcript/{print $0}' file1|awk '{print $3,substr($12,2,12),substr($NF,2,8)}' > out1

ШАГ 2

awk '$3 == "transcript" {print substr($NF,2,8)}' file2  > out2

ШАГ 3

paste out out1.txt | awk 'BEGIN{print "Type        transcript_id      SampleA      SampleB"}{print $0}'



Output

Type       transcript_id SampleA    SampleB
transcript MSTRG.7542.2 0.000000    1.000000
transcript MSTRG.7542.6 0.000000    3.000000
transcript MSTRG.7542.5 0.000000    0.000000

Как использовать awk для извлечения необходимых столбцов и создания нового файла?

решение1

решение2

решение3

Связанный контент