Grepマッチと抽出

Question 1

ではgrep -o、抽出したいものと正確に一致させる必要があります。proto=文字列を抽出したくないので、一致させるべきではありません。

tcpまたはudp、スラッシュと空でない英数字の文字列が続くものに一致する拡張正規表現は、

(tcp|udp)/[[:alnum:]]+

これをデータに適用すると次のようになります。

$ grep -E -o '(tcp|udp)/[[:alnum:]]+' file
tcp/http
tcp/https
udp/dns

文字列で始まる行に対してのみこれを行うようにするには、次の操作を実行しますproto=。

grep '^proto=' file | grep -E -o '(tcp|udp)/[[:alnum:]]+'

を使用するとsed、=最初の空白文字の前と後のすべてを削除します。

$ sed 's/^[^=]*=//; s/[[:blank:]].*//' file
tcp/http
tcp/https
udp/dns

文字列で始まる行にのみこれを行うようにするには、上記proto=と同じ前処理ステップを挿入するか、次のようにします。grep

sed -n '/^proto=/{ s/^[^=]*=//; s/[[:blank:]].*//; p; }' file

ここでは、オプションを使用してデフォルトの出力を抑制し-n、行がに一致する場合にのみ置換と行の明示的な出力をトリガーします^proto=。

ではawk、デフォルトのフィールド区切り文字を使用し、最初のフィールドをで分割して=、その 2 番目のビットを出力します。

$ awk '{ split($1, a, "="); print a[2] }' file
tcp/http
tcp/https
udp/dns

文字列で始まる行にのみこれを行うようにするには、上記proto=と同じ前処理ステップを挿入するか、次のようにします。grep

awk '/^proto=/ { split($1, a, "="); print a[2] }' file

Answer

ではgrep -o、抽出したいものと正確に一致させる必要があります。proto=文字列を抽出したくないので、一致させるべきではありません。

tcpまたはudp、スラッシュと空でない英数字の文字列が続くものに一致する拡張正規表現は、

(tcp|udp)/[[:alnum:]]+

これをデータに適用すると次のようになります。

$ grep -E -o '(tcp|udp)/[[:alnum:]]+' file
tcp/http
tcp/https
udp/dns

文字列で始まる行に対してのみこれを行うようにするには、次の操作を実行しますproto=。

grep '^proto=' file | grep -E -o '(tcp|udp)/[[:alnum:]]+'

を使用するとsed、=最初の空白文字の前と後のすべてを削除します。

$ sed 's/^[^=]*=//; s/[[:blank:]].*//' file
tcp/http
tcp/https
udp/dns

文字列で始まる行にのみこれを行うようにするには、上記proto=と同じ前処理ステップを挿入するか、次のようにします。grep

sed -n '/^proto=/{ s/^[^=]*=//; s/[[:blank:]].*//; p; }' file

ここでは、オプションを使用してデフォルトの出力を抑制し-n、行がに一致する場合にのみ置換と行の明示的な出力をトリガーします^proto=。

ではawk、デフォルトのフィールド区切り文字を使用し、最初のフィールドをで分割して=、その 2 番目のビットを出力します。

$ awk '{ split($1, a, "="); print a[2] }' file
tcp/http
tcp/https
udp/dns

文字列で始まる行にのみこれを行うようにするには、上記proto=と同じ前処理ステップを挿入するか、次のようにします。grep

awk '/^proto=/ { split($1, a, "="); print a[2] }' file

Question 2

GNU grep (オプション-P) を使用している場合は、次を使用できます。

$ grep -oP 'proto=\K[^ ]*' file
tcp/http
tcp/https
udp/dns

ここではproto=、正しい列を抽出していることを確認するために文字列を照合しますが、その後、フラグを使用して出力からそれを破棄します\K。

上記では、列がスペースで区切られていることを前提としています。タブも有効な区切り文字である場合は、\S空白以外の文字を一致させるためにを使用します。コマンドは次のようになります。

grep -oP 'proto=\K\S*' file

proto=などの部分文字列である一致フィールドに対しても保護したい場合はthisisnotaproto=tcp/https、次のように単語境界を追加できます\b。

grep -oP '\bproto=\K\S*' file

Answer

GNU grep (オプション-P) を使用している場合は、次を使用できます。

$ grep -oP 'proto=\K[^ ]*' file
tcp/http
tcp/https
udp/dns

ここではproto=、正しい列を抽出していることを確認するために文字列を照合しますが、その後、フラグを使用して出力からそれを破棄します\K。

上記では、列がスペースで区切られていることを前提としています。タブも有効な区切り文字である場合は、\S空白以外の文字を一致させるためにを使用します。コマンドは次のようになります。

grep -oP 'proto=\K\S*' file

proto=などの部分文字列である一致フィールドに対しても保護したい場合はthisisnotaproto=tcp/https、次のように単語境界を追加できます\b。

grep -oP '\bproto=\K\S*' file

Question 3

使用方法awk:

awk '$1 ~ "proto" { sub(/proto=/, ""); print $1 }' input

$1 ~ "proto"proto最初の列にある行に対してのみアクションを実行するようにします

sub(/proto=/, "")proto=入力から削除します

print $1残りの列を印刷する

$ awk '$1 ~ "proto" { sub(/proto=/, ""); print $1 }' input
tcp/http
tcp/https
udp/dns

Answer

使用方法awk:

awk '$1 ~ "proto" { sub(/proto=/, ""); print $1 }' input

$1 ~ "proto"proto最初の列にある行に対してのみアクションを実行するようにします

sub(/proto=/, "")proto=入力から削除します

print $1残りの列を印刷する

$ awk '$1 ~ "proto" { sub(/proto=/, ""); print $1 }' input
tcp/http
tcp/https
udp/dns

Question 4

もう一つのgrep解決策:

grep -o '[^=/]\+/[^ ]\+' file

sed一致したキャプチャグループのみを印刷する同様の例:

sed -n 's/.*=\([^/]\+\/[^ ]\+\).*/\1/p' file

Answer

もう一つのgrep解決策:

grep -o '[^=/]\+/[^ ]\+' file

sed一致したキャプチャグループのみを印刷する同様の例:

sed -n 's/.*=\([^/]\+\/[^ ]\+\).*/\1/p' file

関連情報