透過重複字元將一列中的一項資料分成與 uniq 字元一樣多的列

Question 1

該腳本既不簡潔也不可讀，但它可以工作，並且與已經發布的解決方案相反，awk它還生成標題行：

sed 'G;s/^SNP.*/SNP/
/^1 /s/ \([^ ]*\) .*SNP[^[:cntrl:]]*/& Geno\1/
s/^\([0-9]*\) [^ ]*\( [AB]*\)\n\(.*\n\1 [AB ]*\)/\3\2/
s/^\([0-9]*\) [^ ]*\( [AB]*\)\(\n\)\(.*\)/\4\3\1\2/
h
$!d' file1 > file2

如果不是用戶，awk我想您也可以awk像這樣擴展給定的解決方案來產生標題行：

awk '{if ($1==1) h=h" Geno"$2
if ($1!="SNP") g[$1]=g[$1]" "$3}
END {print "SNP"h; for (i in g) print i g[i]}' file1 > file2

Answer

該腳本既不簡潔也不可讀，但它可以工作，並且與已經發布的解決方案相反，awk它還生成標題行：

sed 'G;s/^SNP.*/SNP/
/^1 /s/ \([^ ]*\) .*SNP[^[:cntrl:]]*/& Geno\1/
s/^\([0-9]*\) [^ ]*\( [AB]*\)\n\(.*\n\1 [AB ]*\)/\3\2/
s/^\([0-9]*\) [^ ]*\( [AB]*\)\(\n\)\(.*\)/\4\3\1\2/
h
$!d' file1 > file2

如果不是用戶，awk我想您也可以awk像這樣擴展給定的解決方案來產生標題行：

awk '{if ($1==1) h=h" Geno"$2
if ($1!="SNP") g[$1]=g[$1]" "$3}
END {print "SNP"h; for (i in g) print i g[i]}' file1 > file2

Question 2

awk '{g[$1] = g[$1] " " $3}
     END {for (i in g) print i g[i]}' < file1 > file2

或保留順序：

awk '! ($1 in g) {snp[n++] = $1}
     {g[$1] = g[$1] " " $3}
     END {for (i = 0; i < n; i++) print snp[i] g[snp[i]]}' < file1 > file2

要包含“SNP Genoa Genob...”標頭：

awk 'NR == 1 {header = $1; prefix = $3; next}
     first == "" {first = "" $1}
     $1 == first {header = header " " prefix $2}
     ! ($1 in g) {snp[n++] = $1}
     {g[$1] = g[$1] " " $3}
     END {
       print header
       for (i = 0; i < n; i++) print snp[i] g[snp[i]]
     }' < file1 > file2

Answer

awk '{g[$1] = g[$1] " " $3}
     END {for (i in g) print i g[i]}' < file1 > file2

或保留順序：

awk '! ($1 in g) {snp[n++] = $1}
     {g[$1] = g[$1] " " $3}
     END {for (i = 0; i < n; i++) print snp[i] g[snp[i]]}' < file1 > file2

要包含“SNP Genoa Genob...”標頭：

awk 'NR == 1 {header = $1; prefix = $3; next}
     first == "" {first = "" $1}
     $1 == first {header = header " " prefix $2}
     ! ($1 in g) {snp[n++] = $1}
     {g[$1] = g[$1] " " $3}
     END {
       print header
       for (i = 0; i < n; i++) print snp[i] g[snp[i]]
     }' < file1 > file2

Question 3

perl -lane '
   next if $. == 1;                                     # skip header
   $A[@A] = $F[1] if /^1\h/;                            # populate new header
   push @{$h{$F[0]}}, $F[2]}{$,="\t";                   # OFS = tab
   print q/SNP/, map { "Geno$_" } @A;                   # new header print
   print $_, @{$h{$_}} for sort { $a <=> $b } keys %h;  # result
' gene.data

這裡將第三個欄位儲存$F[2]到 AoA (array_of_array) 中。最後，我們對哈希鍵進行數字排序，並列印資料。

sed -e '
   1d; # monospace lines
   s/[[:blank:]]\{1,\}/\t/g;s/^[[:blank:]]*//;s/[[:blank:]]*$//
   H;g
   #  1   2                            3                     4
   s/\(\n\(.*\n\)\{0,1\}\)1[[:blank:]]\([^[:space:]]\{1,\}\)\([[:blank:]][^[:space:]]\{1,\}\)$/\tGeno\3\1\n1\4/
   /\(\n[^[:space:]]\{1,\}[[:blank:]]\)[^[:space:]]\{1,\}[[:blank:]]\([^[:space:]]\{1,\}\)$/s//\1\2/
   y/\n_/_\n/
   s/_\([0-9]\{1,\}\)\([^_]*\)_\(.*_\)\{0,1\}\1\([[:blank:]][^_]*\)/_\1\2\4_\3/
   y/\n_/_\n/
   h;$!d
   s/\n*$//
   s/\n\(\n\)/\1/
   s/^[[:blank:]]/SNP&/
' gene.data

結果

SNP     Genoa   Genob   Genoc
1       AB      AB      AA
2       AB      BB      AB
3       BB      AB      AA

Answer

perl -lane '
   next if $. == 1;                                     # skip header
   $A[@A] = $F[1] if /^1\h/;                            # populate new header
   push @{$h{$F[0]}}, $F[2]}{$,="\t";                   # OFS = tab
   print q/SNP/, map { "Geno$_" } @A;                   # new header print
   print $_, @{$h{$_}} for sort { $a <=> $b } keys %h;  # result
' gene.data

這裡將第三個欄位儲存$F[2]到 AoA (array_of_array) 中。最後，我們對哈希鍵進行數字排序，並列印資料。

sed -e '
   1d; # monospace lines
   s/[[:blank:]]\{1,\}/\t/g;s/^[[:blank:]]*//;s/[[:blank:]]*$//
   H;g
   #  1   2                            3                     4
   s/\(\n\(.*\n\)\{0,1\}\)1[[:blank:]]\([^[:space:]]\{1,\}\)\([[:blank:]][^[:space:]]\{1,\}\)$/\tGeno\3\1\n1\4/
   /\(\n[^[:space:]]\{1,\}[[:blank:]]\)[^[:space:]]\{1,\}[[:blank:]]\([^[:space:]]\{1,\}\)$/s//\1\2/
   y/\n_/_\n/
   s/_\([0-9]\{1,\}\)\([^_]*\)_\(.*_\)\{0,1\}\1\([[:blank:]][^_]*\)/_\1\2\4_\3/
   y/\n_/_\n/
   h;$!d
   s/\n*$//
   s/\n\(\n\)/\1/
   s/^[[:blank:]]/SNP&/
' gene.data

結果

SNP     Genoa   Genob   Genoc
1       AB      AB      AA
2       AB      BB      AB
3       BB      AB      AA

透過重複字元將一列中的一項資料分成與 uniq 字元一樣多的列

答案1

答案2

答案3

結果

相關內容