Как извлечь несколько фрагментов информации, которые находятся в разных строках одного текстового файла

Question 1

С awk:

awk -F '[. ]*' 'NF == 2 {id = $2; next} {print $3, id}' input-file

мы разделяем поля на пробелы или периоды с-F '[. ]*'
со строками из двух полей (строки >Cluster), сохраните второе поле как идентификатор и перейдите к следующей строке
с другими строками, распечатать третье поле и сохраненный идентификатор

Answer

С awk:

awk -F '[. ]*' 'NF == 2 {id = $2; next} {print $3, id}' input-file

мы разделяем поля на пробелы или периоды с-F '[. ]*'
со строками из двух полей (строки >Cluster), сохраните второе поле как идентификатор и перейдите к следующей строке
с другими строками, распечатать третье поле и сохраненный идентификатор

Question 2

awkДля этого можно использовать :

awk '/>Cluster/{
      c=$2;
      next
    }{
      print substr($3,2,length($3)-4), c
    }' file

Первый оператор блока захватывает идентификатор кластера. Второй оператор блока (по умолчанию) извлекает требуемые данные и выводит их.

Answer

awkДля этого можно использовать :

awk '/>Cluster/{
      c=$2;
      next
    }{
      print substr($3,2,length($3)-4), c
    }' file

Первый оператор блока захватывает идентификатор кластера. Второй оператор блока (по умолчанию) извлекает требуемые данные и выводит их.

Question 3

Вот альтернативный вариант с Ruby в одну строку:

ruby -ne 'case $_; when /^>Cluster (\d+)/;id = $1;when /, (>\w{4}_\w{5})\.\.\./;puts "#{$1} #{id}";end' input_file

или разложить на несколько строк:

ruby -ne 'case $_
when /^>Cluster (\d+)/
  id = $1
when /, (>\w{4}_\w{5})\.\.\./
  puts "#{$1} #{id}"
end' input_file

Я думаю, это только более читабельно, чем awkверсия, если вы знаете Ruby и regexen. В качестве бонуса, этот код может быть немного более надежным, чем простое разделение строк, потому что он ищет окружающий текст.

Answer

Вот альтернативный вариант с Ruby в одну строку:

ruby -ne 'case $_; when /^>Cluster (\d+)/;id = $1;when /, (>\w{4}_\w{5})\.\.\./;puts "#{$1} #{id}";end' input_file

или разложить на несколько строк:

ruby -ne 'case $_
when /^>Cluster (\d+)/
  id = $1
when /, (>\w{4}_\w{5})\.\.\./
  puts "#{$1} #{id}"
end' input_file

Я думаю, это только более читабельно, чем awkверсия, если вы знаете Ruby и regexen. В качестве бонуса, этот код может быть немного более надежным, чем простое разделение строк, потому что он ищет окружающий текст.

Question 4

Перл:

$ perl -ne 'if(/^>.*?(\d+)/){$n=$1;}else{ s/.*(>[^.]+).*/$1 $n/; print}' file 
>O311_01007 72
>1494_00753 73
>1621_00002 73
>1622_00575 73
>1633_00422 73
>O136_00307 73
>O139_01028 74
>O142_00961 74
>O300_00856 75

Объяснение

perl -ne: прочитать входной файл построчно ( -n) и применить заданный скрипт -eк каждой строке.
if(/^>.*?(\d+)/){$n=$1;}: если эта строка начинается с >, найдите самую длинную последовательность цифр в конце строки и сохраните ее как $n.
else{ s/.*(>[^.]+).*/$1 $n/; print: если строка не начинается с >, замените все на самую длинную часть не- .символов после >( >[^.]+), т.е. имя последовательности ( $1потому что у нас естьзахваченсовпадение с регулярным выражением) и текущее значение $n.

Или, для более awk-подобного подхода:

$ perl -lane 'if($#F==1){$n=$F[1]}else{$F[2]=~s/\.+$//; print "$F[2] $n"}' file 
>O311_01007 72
>1494_00753 73
>1621_00002 73
>1622_00575 73
>1633_00422 73
>O136_00307 73
>O139_01028 74
>O142_00961 74
>O300_00856 75

Это просто немного более громоздкий способ сделать ту же самую базовую идею, что и различные awkподходы. Я включаю его ради полноты и для поклонников Perl. Если вам нужно объяснение, просто используйте решения awk :).

Answer

Перл:

$ perl -ne 'if(/^>.*?(\d+)/){$n=$1;}else{ s/.*(>[^.]+).*/$1 $n/; print}' file 
>O311_01007 72
>1494_00753 73
>1621_00002 73
>1622_00575 73
>1633_00422 73
>O136_00307 73
>O139_01028 74
>O142_00961 74
>O300_00856 75

Объяснение

perl -ne: прочитать входной файл построчно ( -n) и применить заданный скрипт -eк каждой строке.
if(/^>.*?(\d+)/){$n=$1;}: если эта строка начинается с >, найдите самую длинную последовательность цифр в конце строки и сохраните ее как $n.
else{ s/.*(>[^.]+).*/$1 $n/; print: если строка не начинается с >, замените все на самую длинную часть не- .символов после >( >[^.]+), т.е. имя последовательности ( $1потому что у нас естьзахваченсовпадение с регулярным выражением) и текущее значение $n.

Или, для более awk-подобного подхода:

$ perl -lane 'if($#F==1){$n=$F[1]}else{$F[2]=~s/\.+$//; print "$F[2] $n"}' file 
>O311_01007 72
>1494_00753 73
>1621_00002 73
>1622_00575 73
>1633_00422 73
>O136_00307 73
>O139_01028 74
>O142_00961 74
>O300_00856 75

Это просто немного более громоздкий способ сделать ту же самую базовую идею, что и различные awkподходы. Я включаю его ради полноты и для поклонников Perl. Если вам нужно объяснение, просто используйте решения awk :).

Как извлечь несколько фрагментов информации, которые находятся в разных строках одного текстового файла

решение1

решение2

решение3

решение4

Объяснение

Связанный контент