同じテキストファイル内の異なる行に表示される複数の情報ビットを抽出する方法

Question 1

awk の場合:

awk -F '[. ]*' 'NF == 2 {id = $2; next} {print $3, id}' input-file

フィールドをスペースまたはピリオドで分割します-F '[. ]*'
2つのフィールドの行（行>Cluster）で、2番目のフィールドをIDとして保存し、次の行に移動します。
他の行では、3番目のフィールドと保存されたIDを印刷します。

Answer

awk の場合:

awk -F '[. ]*' 'NF == 2 {id = $2; next} {print $3, id}' input-file

フィールドをスペースまたはピリオドで分割します-F '[. ]*'
2つのフィールドの行（行>Cluster）で、2番目のフィールドをIDとして保存し、次の行に移動します。
他の行では、3番目のフィールドと保存されたIDを印刷します。

Question 2

これには以下を使用できますawk:

awk '/>Cluster/{
      c=$2;
      next
    }{
      print substr($3,2,length($3)-4), c
    }' file

最初のブロックステートメントはクラスター ID をキャプチャします。2 番目のブロックステートメント (デフォルト) は必要なデータを抽出し、それを出力します。

Answer

これには以下を使用できますawk:

awk '/>Cluster/{
      c=$2;
      next
    }{
      print substr($3,2,length($3)-4), c
    }' file

最初のブロックステートメントはクラスター ID をキャプチャします。2 番目のブロックステートメント (デフォルト) は必要なデータを抽出し、それを出力します。

Question 3

以下は、Ruby をワンライナーとして使った代替案です。

ruby -ne 'case $_; when /^>Cluster (\d+)/;id = $1;when /, (>\w{4}_\w{5})\.\.\./;puts "#{$1} #{id}";end' input_file

または複数行にまたがる:

ruby -ne 'case $_
when /^>Cluster (\d+)/
  id = $1
when /, (>\w{4}_\w{5})\.\.\./
  puts "#{$1} #{id}"
end' input_file

Ruby と regexen を知っていれば、このバージョンの方が読みやすいだけだと思いますawk。おまけに、このコードは周囲のテキストを探すので、単純に行を分割するよりも少し堅牢かもしれません。

Answer

以下は、Ruby をワンライナーとして使った代替案です。

ruby -ne 'case $_; when /^>Cluster (\d+)/;id = $1;when /, (>\w{4}_\w{5})\.\.\./;puts "#{$1} #{id}";end' input_file

または複数行にまたがる:

ruby -ne 'case $_
when /^>Cluster (\d+)/
  id = $1
when /, (>\w{4}_\w{5})\.\.\./
  puts "#{$1} #{id}"
end' input_file

Ruby と regexen を知っていれば、このバージョンの方が読みやすいだけだと思いますawk。おまけに、このコードは周囲のテキストを探すので、単純に行を分割するよりも少し堅牢かもしれません。

Question 4

パール:

$ perl -ne 'if(/^>.*?(\d+)/){$n=$1;}else{ s/.*(>[^.]+).*/$1 $n/; print}' file 
>O311_01007 72
>1494_00753 73
>1621_00002 73
>1622_00575 73
>1633_00422 73
>O136_00307 73
>O139_01028 74
>O142_00961 74
>O300_00856 75

説明

perl -ne: 入力ファイルを行ごとに読み取り ( )、各行に-nで指定されたスクリプトを適用します。-e
if(/^>.*?(\d+)/){$n=$1;}: この行がで始まる場合>、行末の最長の数字の範囲を見つけて、それをとして保存します$n。
else{ s/.*(>[^.]+).*/$1 $n/; print: 行がで始まっていない場合は、すべてを( )に続く>最長の非文字の連続、つまりシーケンス名 ( で置き換えます。.>>[^.]+$1捕らえられた正規表現の一致) との現在の値$n。

あるいは、より awk 風のアプローチとしては、次のようになります。

$ perl -lane 'if($#F==1){$n=$F[1]}else{$F[2]=~s/\.+$//; print "$F[2] $n"}' file 
>O311_01007 72
>1494_00753 73
>1621_00002 73
>1622_00575 73
>1633_00422 73
>O136_00307 73
>O139_01028 74
>O142_00961 74
>O300_00856 75

これは、さまざまなアプローチと同じ基本的なアイデアを実行するための、少し面倒な方法ですawk。完全性と Perl ファンのためにこれを含めています。説明が必要な場合は、awk ソリューションを使用してください :)。

Answer

パール:

$ perl -ne 'if(/^>.*?(\d+)/){$n=$1;}else{ s/.*(>[^.]+).*/$1 $n/; print}' file 
>O311_01007 72
>1494_00753 73
>1621_00002 73
>1622_00575 73
>1633_00422 73
>O136_00307 73
>O139_01028 74
>O142_00961 74
>O300_00856 75

説明

perl -ne: 入力ファイルを行ごとに読み取り ( )、各行に-nで指定されたスクリプトを適用します。-e
if(/^>.*?(\d+)/){$n=$1;}: この行がで始まる場合>、行末の最長の数字の範囲を見つけて、それをとして保存します$n。
else{ s/.*(>[^.]+).*/$1 $n/; print: 行がで始まっていない場合は、すべてを( )に続く>最長の非文字の連続、つまりシーケンス名 ( で置き換えます。.>>[^.]+$1捕らえられた正規表現の一致) との現在の値$n。

あるいは、より awk 風のアプローチとしては、次のようになります。

$ perl -lane 'if($#F==1){$n=$F[1]}else{$F[2]=~s/\.+$//; print "$F[2] $n"}' file 
>O311_01007 72
>1494_00753 73
>1621_00002 73
>1622_00575 73
>1633_00422 73
>O136_00307 73
>O139_01028 74
>O142_00961 74
>O300_00856 75

これは、さまざまなアプローチと同じ基本的なアイデアを実行するための、少し面倒な方法ですawk。完全性と Perl ファンのためにこれを含めています。説明が必要な場合は、awk ソリューションを使用してください :)。

同じテキストファイル内の異なる行に表示される複数の情報ビットを抽出する方法

答え1

答え2

答え3

答え4

説明

関連情報