Чтение/обработка данных столбца для n-го повторения

Question 1

Ну, вы почти получили ответ:

awk '
     {cols=((NF/2) + 1)
      for (i=1; i <= cols; i++) {
          if (i >= 3) {
              count_index= i + cols - 2
              printf("%s\t", 1.0 * $i / ($count_index * $2))
          } else {
              printf("%s\t", $i) 
          }
      }
      printf("\n")
     }' inFile

Обратите внимание, что использование cat file | awk ...не является оптимальным, awk обрабатывает файлы как аргументы напрямую; даже в этом случае, использование awk ... < infileбыло бы лучше, чембесполезное использование кошки.

Answer

Ну, вы почти получили ответ:

awk '
     {cols=((NF/2) + 1)
      for (i=1; i <= cols; i++) {
          if (i >= 3) {
              count_index= i + cols - 2
              printf("%s\t", 1.0 * $i / ($count_index * $2))
          } else {
              printf("%s\t", $i) 
          }
      }
      printf("\n")
     }' inFile

Обратите внимание, что использование cat file | awk ...не является оптимальным, awk обрабатывает файлы как аргументы напрямую; даже в этом случае, использование awk ... < infileбыло бы лучше, чембесполезное использование кошки.

Question 2

perl -F'\s+' -lane '$,="\t"; # OFS made a TAB
   my($gN, $gL) = splice @F, 0, 2; # store gene name & length
   print $gN, $gL, map { sprintf "%.5e", $F[$_] / ( $F[$_+@F/2] * $gL ) } 0 .. @F/2-1;
' gene_samples.file

FSустановлен на один или несколько пробелов.
ORS = RS = \n
@Fсодержит поля для данной записи.
spliceотделяет 2 элемента, начиная со смещения 0, а также уменьшает размер массива.
Из спецификации OP, из того, что осталось в @F, это четные элементы. Первая половина — counts_for_each_sample, а вторая половина — total_count_for_each_sample.

Полученные результаты

A1BG      1758  6.55307e-10  5.67278e-08  3.73151e-09
A1BG-AS1  2126  5.11204e-11  9.43963e-10  1.78875e-10
A1CF      9695  1.99136e-08  8.28471e-09  1.42845e-09
A2M       5399  6.42672e-08  5.20606e-08  4.24207e-08
A2M-AS1   6660  1.63186e-10  1.12999e-10  1.71301e-10

Answer

perl -F'\s+' -lane '$,="\t"; # OFS made a TAB
   my($gN, $gL) = splice @F, 0, 2; # store gene name & length
   print $gN, $gL, map { sprintf "%.5e", $F[$_] / ( $F[$_+@F/2] * $gL ) } 0 .. @F/2-1;
' gene_samples.file

FSустановлен на один или несколько пробелов.
ORS = RS = \n
@Fсодержит поля для данной записи.
spliceотделяет 2 элемента, начиная со смещения 0, а также уменьшает размер массива.
Из спецификации OP, из того, что осталось в @F, это четные элементы. Первая половина — counts_for_each_sample, а вторая половина — total_count_for_each_sample.

Полученные результаты

A1BG      1758  6.55307e-10  5.67278e-08  3.73151e-09
A1BG-AS1  2126  5.11204e-11  9.43963e-10  1.78875e-10
A1CF      9695  1.99136e-08  8.28471e-09  1.42845e-09
A2M       5399  6.42672e-08  5.20606e-08  4.24207e-08
A2M-AS1   6660  1.63186e-10  1.12999e-10  1.71301e-10

Чтение/обработка данных столбца для n-го повторения

решение1

решение2

Полученные результаты

Связанный контент