Как получить все столбцы на основе двух столбцов с помощью awk?

Question 1

awk 'NR==1{print; next}
     $5 ~ /^[A-Z]$/ && $6 ~ /^[A-Z]$/' input.txt

Объяснение

NR==1{print; next}

Это выводит первую строку (заголовок) без каких-либо условий и переходит к следующей строке.

$5 ~ /^[A-Z]$/ && $6 ~ /^[A-Z]$/

Это условное выражение: если 5-й и 6-й аргументы оба соответствуют одной заглавной букве, то вывести строку (в этом случае команда печати подразумевается, поскольку является инструкцией по умолчанию для любого условия).

$5и $6обозначают 5-й и 6-й столбцы каждой строки.

&&— логический оператор И.

~— оператор сопоставления регулярных выражений. Он возвращает значение true, если аргумент слева соответствует регулярному выражению справа.

/^[A-Z]$/является регулярным выражением (regexp). Символ "/" является разделителем для regexp, "^" обозначает начало строки (или строки), "$" - конец, а "[AZ]" означает все заглавные буквы от A до Z.

Answer

awk 'NR==1{print; next}
     $5 ~ /^[A-Z]$/ && $6 ~ /^[A-Z]$/' input.txt

Объяснение

NR==1{print; next}

Это выводит первую строку (заголовок) без каких-либо условий и переходит к следующей строке.

$5 ~ /^[A-Z]$/ && $6 ~ /^[A-Z]$/

Это условное выражение: если 5-й и 6-й аргументы оба соответствуют одной заглавной букве, то вывести строку (в этом случае команда печати подразумевается, поскольку является инструкцией по умолчанию для любого условия).

$5и $6обозначают 5-й и 6-й столбцы каждой строки.

&&— логический оператор И.

~— оператор сопоставления регулярных выражений. Он возвращает значение true, если аргумент слева соответствует регулярному выражению справа.

/^[A-Z]$/является регулярным выражением (regexp). Символ "/" является разделителем для regexp, "^" обозначает начало строки (или строки), "$" - конец, а "[AZ]" означает все заглавные буквы от A до Z.

Question 2

awk '$5 ~ /^[ACGT]$/ && $6 ~ /^[ACGT]$/ || NR == 1' data.in

Это позволит, для заданных данных, сгенерировать

sample  chr        start      end      ref   alt    gene    effect
AADA-01 chr1    12336579    12336579    C    T     VPS13D    Silent
AADA-03 chr1    94548954    94548954    C    A     ABCA4    Missense
AADA-05 chr1    186076063   186076063   A    T     HM1      Silent

Скрипт awkпроверяет столбцы 5 и 6, чтобы определить, являются ли они одним из символов A, C, Gили T, или является ли текущая строка первой строкой файла. Если это так, он выведет эту строку.

Тест $5 ~ /^[ACGT]$/означает «проверить, соответствует ли столбец пять регулярному выражению ^[ACGT]$». Регулярное выражение будет соответствовать всему, что содержит один символ из заданного набора ( [ACGT]).

^и $являются «якорями», они будут соответствовать только в самом начале и самом конце (соответственно) указанных данных (столбец пять и столбец шесть).

&&и ||являются логическими операторами И и ИЛИ.

NR— порядковый номер текущей входной строки. Если NR == 1тогда текущая строка — это строка заголовка в файле. Поскольку строка заголовка не соответствует критериям вывода ( refи altне является одиночной буквой, а значит, не будет соответствовать регулярному выражению), необходимо провести эту отдельную проверку, чтобы убедиться, что она будет выводиться.

Answer

awk '$5 ~ /^[ACGT]$/ && $6 ~ /^[ACGT]$/ || NR == 1' data.in

Это позволит, для заданных данных, сгенерировать

sample  chr        start      end      ref   alt    gene    effect
AADA-01 chr1    12336579    12336579    C    T     VPS13D    Silent
AADA-03 chr1    94548954    94548954    C    A     ABCA4    Missense
AADA-05 chr1    186076063   186076063   A    T     HM1      Silent

Скрипт awkпроверяет столбцы 5 и 6, чтобы определить, являются ли они одним из символов A, C, Gили T, или является ли текущая строка первой строкой файла. Если это так, он выведет эту строку.

Тест $5 ~ /^[ACGT]$/означает «проверить, соответствует ли столбец пять регулярному выражению ^[ACGT]$». Регулярное выражение будет соответствовать всему, что содержит один символ из заданного набора ( [ACGT]).

^и $являются «якорями», они будут соответствовать только в самом начале и самом конце (соответственно) указанных данных (столбец пять и столбец шесть).

&&и ||являются логическими операторами И и ИЛИ.

NR— порядковый номер текущей входной строки. Если NR == 1тогда текущая строка — это строка заголовка в файле. Поскольку строка заголовка не соответствует критериям вывода ( refи altне является одиночной буквой, а значит, не будет соответствовать регулярному выражению), необходимо провести эту отдельную проверку, чтобы убедиться, что она будет выводиться.

Question 3

perl -lane 'print if $. == 1 or 2 == grep /^[A-Z]$/, @F[4,5]' data.in

Answer

perl -lane 'print if $. == 1 or 2 == grep /^[A-Z]$/, @F[4,5]' data.in

Как получить все столбцы на основе двух столбцов с помощью awk?

решение1

решение2

решение3

Связанный контент