сохранить только определенную часть строки в определенном столбце

Question 1

Используя `sed`и `column`:

$ sed -E 's/ intron_([^:]*):[^[:space:]]*/ \1/' file | column -t
id  target_id    length  eff_length
1   FBgn0000721  1136    243.944268
1   FBgn0000721  1122    240.237419
2   FBgn0264373  56      0

Ключевой частью этого является команда замены:

s/ intron_([^:]*):\S*/ \1/

Он ищет intron_и сохраняет все после intron_и до первого двоеточия в переменную 1. [^[:space:]]*соответствует всему от этого двоеточия до конца поля. Все это заменяется текстом, сохраненным в переменной 1.

Использование `awk`с выводом, разделенным табуляцией:

$ awk -v "OFS=\t" '{$2=$2;sub(/intron_/, "", $2); sub(/:.*/, "", $2); print}' file
id      target_id       length  eff_length
1       FBgn0000721     1136    243.944268
1       FBgn0000721     1122    240.237419
2       FBgn0264373     56      0

Объяснение:

-v "OFS=\t"

Это устанавливает разделитель выходных полей на табуляцию. Это помогает выровнять столбцы, возможно, делая columnненужными.
$2=$2

При печати строки awkне изменится на наш новый указанный разделитель выходных полей, если мы не изменим что-то в строке. Назначение второго поля второму полю достаточно, чтобы гарантировать, что вывод будет иметь табуляции.
sub(/intron_/, "", $2)

Это удаляет intron_из второго поля.
sub(/:.*/, "", $2)

Это удалит все после первого двоеточия из второго поля.
print

Это напечатает нашу новую строку.

Использование `awk`с пользовательским форматированием столбцов

Это похоже на предыдущий пример, но позволяет printfнам настраивать ширину столбцов и выравнивание по желанию:

$ awk  '{sub(/intron_/, "", $2); sub(/:.*/, "", $2); printf "%-3s %-12s %8s %3s\n",$1,$2,$3,$4}' file
id  target_id      length eff_length
1   FBgn0000721      1136 243.944268
1   FBgn0000721      1122 240.237419
2   FBgn0264373        56   0

Здесь оператор printf "%-3s %-12s %8s %3s\n",$1,$2,$3,$4выбирает ширину столбцов и выравнивание в обычном printfстиле.

Использование `sed`и преобразование из табуляции в запятую

$ sed -E 's/ intron_([^:]*):[^[:space:]]*/ \1/; s/[[:space:]][[:space:]]*/,/g' file 
id,target_id,length,eff_length
1,FBgn0000721,1136,243.944268
1,FBgn0000721,1122,240.237419
2,FBgn0264373,56,0

Answer

Используя `sed`и `column`:

$ sed -E 's/ intron_([^:]*):[^[:space:]]*/ \1/' file | column -t
id  target_id    length  eff_length
1   FBgn0000721  1136    243.944268
1   FBgn0000721  1122    240.237419
2   FBgn0264373  56      0

Ключевой частью этого является команда замены:

s/ intron_([^:]*):\S*/ \1/

Он ищет intron_и сохраняет все после intron_и до первого двоеточия в переменную 1. [^[:space:]]*соответствует всему от этого двоеточия до конца поля. Все это заменяется текстом, сохраненным в переменной 1.

Использование `awk`с выводом, разделенным табуляцией:

$ awk -v "OFS=\t" '{$2=$2;sub(/intron_/, "", $2); sub(/:.*/, "", $2); print}' file
id      target_id       length  eff_length
1       FBgn0000721     1136    243.944268
1       FBgn0000721     1122    240.237419
2       FBgn0264373     56      0

Объяснение:

-v "OFS=\t"

Это устанавливает разделитель выходных полей на табуляцию. Это помогает выровнять столбцы, возможно, делая columnненужными.
$2=$2

При печати строки awkне изменится на наш новый указанный разделитель выходных полей, если мы не изменим что-то в строке. Назначение второго поля второму полю достаточно, чтобы гарантировать, что вывод будет иметь табуляции.
sub(/intron_/, "", $2)

Это удаляет intron_из второго поля.
sub(/:.*/, "", $2)

Это удалит все после первого двоеточия из второго поля.
print

Это напечатает нашу новую строку.

Использование `awk`с пользовательским форматированием столбцов

Это похоже на предыдущий пример, но позволяет printfнам настраивать ширину столбцов и выравнивание по желанию:

$ awk  '{sub(/intron_/, "", $2); sub(/:.*/, "", $2); printf "%-3s %-12s %8s %3s\n",$1,$2,$3,$4}' file
id  target_id      length eff_length
1   FBgn0000721      1136 243.944268
1   FBgn0000721      1122 240.237419
2   FBgn0264373        56   0

Здесь оператор printf "%-3s %-12s %8s %3s\n",$1,$2,$3,$4выбирает ширину столбцов и выравнивание в обычном printfстиле.

Использование `sed`и преобразование из табуляции в запятую

$ sed -E 's/ intron_([^:]*):[^[:space:]]*/ \1/; s/[[:space:]][[:space:]]*/,/g' file 
id,target_id,length,eff_length
1,FBgn0000721,1136,243.944268
1,FBgn0000721,1122,240.237419
2,FBgn0264373,56,0

Question 2

Вы можете использовать perl:

$ perl -anle '
    BEGIN {$" = "\t"}
    print "@{[@F]}" and next if $. == 1;
    $F[1] = $1 if /_([^:]*):/;
    print "@{[@F]}";
' file
id  target_id   length  eff_length
1   FBgn0000721 1136    243.944268
1   FBgn0000721 1122    240.237419
2   FBgn0264373 56      0
3   FBgn0027570 54      0

Объяснение

-a: автоматическое разбиение каждой строки на массив @F.
BEGIN {$" = "\t"}: мы устанавливаем разделитель списка на табуляцию \t, она используется, когда массив или фрагмент массива интерполируется в строку, заключенную в двойные кавычки.
print "@{[@F]}" and next if $. == 1: Печатаем заголовок, переходим к следующей строке.
$F[1] = $1 if /_([^:]*):/: мы получаем значение между _и первым :, сохраняем его во втором элементе в @F.
print "@{[@F]}": просто распечатайте желаемый результат.

Answer

Вы можете использовать perl:

$ perl -anle '
    BEGIN {$" = "\t"}
    print "@{[@F]}" and next if $. == 1;
    $F[1] = $1 if /_([^:]*):/;
    print "@{[@F]}";
' file
id  target_id   length  eff_length
1   FBgn0000721 1136    243.944268
1   FBgn0000721 1122    240.237419
2   FBgn0264373 56      0
3   FBgn0027570 54      0

Объяснение

-a: автоматическое разбиение каждой строки на массив @F.
BEGIN {$" = "\t"}: мы устанавливаем разделитель списка на табуляцию \t, она используется, когда массив или фрагмент массива интерполируется в строку, заключенную в двойные кавычки.
print "@{[@F]}" and next if $. == 1: Печатаем заголовок, переходим к следующей строке.
$F[1] = $1 if /_([^:]*):/: мы получаем значение между _и первым :, сохраняем его во втором элементе в @F.
print "@{[@F]}": просто распечатайте желаемый результат.

Question 3

sed -e 'h;s/.*intron_[^:]*\(:[^[:space:]]*\).*/\1/;s/./ /g;;G;;s/\(.*\)\n\(.*\)intron_\([^:]*\):[^[:space:]]*/\2\3\1/' YourFile

В 1 sed (без конвейера) сохраняя столбец. Он использует буфер хранения

Версия Posix (также --posixв GNU sed)

Answer

sed -e 'h;s/.*intron_[^:]*\(:[^[:space:]]*\).*/\1/;s/./ /g;;G;;s/\(.*\)\n\(.*\)intron_\([^:]*\):[^[:space:]]*/\2\3\1/' YourFile

В 1 sed (без конвейера) сохраняя столбец. Он использует буфер хранения

Версия Posix (также --posixв GNU sed)

сохранить только определенную часть строки в определенном столбце

решение1

Используя `sed`и `column`:

Использование `awk`с выводом, разделенным табуляцией:

Использование `awk`с пользовательским форматированием столбцов

Использование `sed`и преобразование из табуляции в запятую

решение2

решение3

Связанный контент

решение1

Используя sedи column:

Использование awkс выводом, разделенным табуляцией:

Использование awkс пользовательским форматированием столбцов

Использование sedи преобразование из табуляции в запятую

решение2

решение3

Связанный контент

Используя `sed`и `column`:

Использование `awk`с выводом, разделенным табуляцией:

Использование `awk`с пользовательским форматированием столбцов

Использование `sed`и преобразование из табуляции в запятую