У меня есть файл данных A.tsv
(разделитель полей = \t
):
id mutation
243 siti,toto,mumu
254
267 lala,siti,sojo
289 lala
и файл шаблона B.txt
(разделитель полей = не важен, так как всего одна строка и один столбец):
lala,siti,mumu
Я хочу создать новый столбец в A.tsv
(но в новом файле C.tsv
) с именем , mutation_not
в котором будут выводиться только мутации, присутствующие в mutation
столбце , A.tsv
которых нет в списке B.txt
.
C.tsv
выглядит так:
id mutation mutation_not
243 siti,toto,mumu toto
254
267 lala,siti,sojo sojo
289 lala
Я попробовал с помощью исключения:
awk 'NR==FNR {exclude[$0];next} !($0 in exclude)' file2 file1
но у меня нет хорошего результата. У тебя есть идея? Спасибо
решение1
awk ' BEGIN{OFS="\t"}
NR==FNR{ for(i=1; i<=NF; i++) muts[$i]; next }
FNR>1 { len=split($2, tmp, ",");
for(i=1; i<=len; i++) buf= buf (tmp[i] in muts?"":(buf==""?"":",") tmp[i])
}
{ print $0, (FNR==1?"mutation_not":buf); buf="" }' FS=',' fileB FS='\t' fileA
решение2
С использованием gawk
:
awk 'BEGIN{OFS="\t"; }
NR==FNR{ar[$1]=$1;next}
FNR==1{$(NF+1) = "mutation_not"}
FNR>1{split($2,a,",");
for(i in a) if (a[i] in ar) ;
else ncol[$1] = (ncol[$1])? ncol[$1] "," a[i] : a[i];
$(NF+1) = ncol[$1]}1'
RS="," B.txt RS="\n" FS="\t" A.tsv
Предполагая, что все поля разделены запятыми и имеют только одну строку, Record Separator( RS
) устанавливается на запятую для файла B.txt
.
NR==FNR{ar[$1]=$1;next
создает массив ar
, индексированный по первому полю первого файла.
FNR==1{$(NF+1) = "mutation_not"
создает еще один столбец в заголовке name.
FNR>1{split($2,a,",")
разбивает второе поле на A.tsv
массив a
.
Следующая запись, отсутствующая в, B.txt
сохраняется в ncol
массиве.
$(NF+1) = ncol[$1]
Создает еще один столбец с элементами массива ncol
.
решение3
Сформируем set
s2 из разделенных запятыми элементов файла B.txt
Затем для каждой строки A.tsv мы преобразуем второе поле в набор и вычтем из него набор s2. Это даст нам мутации, присутствующие в A.tsv, но не найденные в B.txt. Затем мы объединяем полученные элементы и печатаем их вместе с исходной строкой.
python3 -c 'import sys
tsv,txt = sys.argv[1:]
fs,rs = "\t","\n"
ofs,dlm = fs,","
with open(txt) as fh, open(tsv) as f:
s2 = set(*list(map(lambda x:x.rstrip(rs).split(dlm),fh.readlines())))
for nr,ln in enumerate(f,1):
l = ln.rstrip(rs)
if nr == 1: print(l,"mutation_not",sep=ofs)
else:
F = l.split(ofs)
if len(F) < 2: print(l)
else: print(l,
dlm.join({*F[1].split(dlm)}-s2),sep=ofs)
' A.tsv B.txt
Результат:
id mutation mutation_not
243 siti,toto,mumu toto
254
267 lala,siti,sojo sojo
289 lala
На этот раз мы воспользуемся редактором Gnu sed для получения результатов:
sed -Ee '
1{h;d;}
2s/\tmutation$/&&_not/;t
s/\t\S+$/&&,/;T;G
s/\t/\n/2;ta
:a
s/\n([^,]+),(.*\n(.*,)?\1(,|$))/\n\2/;ta
s/\n([^,\n]+),/\t\1\n/;ta
s/\n.*//
' B.txt A.tsv
Идея в том, что файл Btxt хранится в удержании (предполагая, что это одна строка), и каждая строка A.tsv добавляется к содержимому B.txt, и мутации отмечаются галочками, которые найдены в B.txt. После того, как все мутации были просмотрены, строка печатается.