開始パターンと終了パターンの間の行を印刷しますが、終了パターンが存在しない場合は印刷しません。

Question 1

これは次のようにして実現できます。

$ sed -e '
    /BEGIN/,/END/!d
    H;/BEGIN/h;/END/!d;g
' inp

動作の仕組みは、行の開始/終了範囲をホールドスペースに格納します。次に、END 行に到達するまで削除します。その時点で、ホールド内の内容を呼び出します。OTW、何も取得されません。HTH。

Answer

これは次のようにして実現できます。

$ sed -e '
    /BEGIN/,/END/!d
    H;/BEGIN/h;/END/!d;g
' inp

動作の仕組みは、行の開始/終了範囲をホールドスペースに格納します。次に、END 行に到達するまで削除します。その時点で、ホールド内の内容を呼び出します。OTW、何も取得されません。HTH。

Question 2

cat input |
sed '/\*\*\*\*\* BEGIN \*\*\*\*\*/,/\*\*\*\*\* END *\*\*\*\*/ p;d' | 
tac |
sed '/\*\*\*\*\* END \*\*\*\*\*/,/\*\*\*\*\* BEGIN *\*\*\*\*/ p;d' |
tac

tac行を逆にすることでsed、両方の順序で両方の区切り文字を見つけることができるようになります。

Answer

cat input |
sed '/\*\*\*\*\* BEGIN \*\*\*\*\*/,/\*\*\*\*\* END *\*\*\*\*/ p;d' | 
tac |
sed '/\*\*\*\*\* END \*\*\*\*\*/,/\*\*\*\*\* BEGIN *\*\*\*\*/ p;d' |
tac

tac行を逆にすることでsed、両方の順序で両方の区切り文字を見つけることができるようになります。

Question 3

とpcregrep：

pcregrep -M '(?s)BEGIN.*?END'

これは、BEGIN と END が同じ行にある場合にも機能しますが、次のような場合には機能しません。

BEGIN 1 END foo BEGIN 2
END

ここで、pcregrep最初のはキャッチしますBEGIN 1 ENDが、2 番目のはキャッチしません。

これらを処理するにはawk、を使って次のようにします。

awk '
  !inside {
    if (match($0, /^.*BEGIN/)) {
      inside = 1
      remembered = substr($0, 1, RLENGTH)
      $0 = substr($0, RLENGTH + 1)
    } else next
  }
  {
    if (match($0, /^.*END/)) {
      print remembered $0
      if (substr($0, RLENGTH+1) ~ /BEGIN/)
        remembered = ""
      else
        inside = 0
    } else
      remembered = remembered $0 ORS
  }'

次のような入力の場合:

a
BEGIN blah END BEGIN 1
2
END
b
BEGIN foo END
c
BEGIN
bar
END BEGIN
baz END
d
BEGIN
xxx

それは与えます：

BEGIN blah END BEGIN 1
2
END
BEGIN foo END
BEGIN
bar
END BEGIN
baz END

どちらも、BEGIN から次の END までのすべてをメモリに保存する必要があります。したがって、最初の行に BEGIN は含まれているが END がない巨大なファイルがある場合、ファイル全体がメモリに無駄に保存されることになります。

これを回避する唯一の方法は、ファイルを 2 回処理することですが、もちろん、これは入力が通常のファイル (たとえばパイプではない) である場合にのみ実行できます。

Answer