обработка текста-perl

обработка текста-perl

Я биолог. Мне нужна помощь компьютерных специалистов для редактирования текстового файла.

Вот как выглядит входной файл:

##dsfsd2
##sdf-sdf sasg 5.6.3
gi34_ex Gen  CDS     161     317     .       +       .       Name=Xm ZAK;created by=User
gi56_ex Gen  CDS     2194    2280    .       +       .       Name=Xm ZAK;created by=User
gi37_ex Gen  CDS     2848    2951    .       +       .       Name=Xm ZAK;created by=User
gi37_ex Gen  CDS     4554    4619    .       +       .       Name=Xm ZAK;created by=User
gi37_ex Gen  CDS     4729    4756    .       +       .       Name=Xm ZAK;created by=User
gi37_ex Gen  extracted region        1       11677   .       +       .       Name=Extracted region from gi|371443185|gb|JH556675.1|;Extracted interval="1960862 -> 1972538"

Обратите внимание, что начиная с третьей строки, входные данные имеют 12 (от $1 до $12) столбцов, разделенных табуляцией. Последняя строка файла имеет 16 (от $1 до $16) столбцов, разделенных табуляцией. ## строк следует игнорировать.

Я хочу взять $14 из последней строки (interval="1960862"), только число (1960862) добавить к столбцу $4 (161,2194,2848..4729), т. е. (161+1960862=1961023,2194+1960862=1963056..) и к столбцу $5 (317,2280,2951..4756), т. е. (317+1960862=1961179,2280+1960862=1963142), проигнорировать последнюю строку.

Вывод должен выглядеть так:

##dsfsd2
##sdf-sdf sasg 5.6.3
gi34_ex Gen  CDS     1961023     1961179     .       +       .       Name=Xm ZAK;created by=User
gi56_ex Gen  CDS     1963056    1963142    .       +       .       Name=Xm ZAK;created by=User
gi37_ex Gen  CDS     1963710    1963813    .       +       .       Name=Xm ZAK;created by=User
gi37_ex Gen  CDS     1965416    1965481    .       +       .       Name=Xm ZAK;created by=User
gi37_ex Gen  CDS     1965591    1965618    .       +       .       Name=Xm ZAK;created by=User
gi37_ex Gen  extracted region        1       11677   .       +       .       Name=Extracted region from gi|371443185|gb|JH556675.1|;Extracted interval="1960862 -> 1972538"

решение1

Вот рабочее решение. Объяснение можно найти в комментариях.

#!/usr/bin/perl
use warnings;
use strict;

open my $IN, '<', '1.in' or die $!;

my $line;
$line = $_ while <$IN>;                 # Remember the last line.
my $last = $.;                          # Remember the number of the last line.

my $interval = (split /\t/, $line)[13]; # Extract the 14th column.
$interval =~ s/[^0-9]+//;               # Keep only the number.

seek $IN, 0, 0;                         # Rewind to the beginning of the input.
$. = 0;                                 # Restart the line counter.
my $start = 1;                          # Flag to skip first lines.
while (<$IN>) {
    my @columns = split /\t/;
    /^##/ or undef $start;              # Unset start if the header is over.
    if (not ($start or $. == $last)) {  # Not header or last line?
        $_ += $interval for @columns[3, 4];
    }
    print join "\t", @columns;
}

Связанный контент