ライブログファイルから行の一部のみを表示する

Question 1

データは高度に構造化されており、キー="値"したがって、キー名のリストを引数として受け取り、それらの値を出力するだけの小さなシェルスクリプトを gnu awk で記述できます。例myscript:

#!/bin/bash
awk -v lhs="$*" '
BEGIN{  FPAT = "[a-z-]*=\"[^\"]*\""
        nwant = split(lhs,want)
}
{       for(i=1;i<=NF;i++){
            start = match($i,/([a-z-]*)="([^"]*)"/,a)
            key[a[1]] = a[2]
        }
        for(i=1;i<=nwant;i++){printf "%s ",key[want[i]]; key[want[i]] = ""}
        printf "\n"
}'

これをとして呼び出しますmyscript srcip categoryname url。これにより、awk 変数がlhs引数の 1 つの文字列として設定されますwant。引数は先頭で配列に分割されます。行は awk によってパターンに一致するフィールドに分割されます。キー="値"組み込みFPAT変数を使用します。

各行で、各フィールドをmatch()キーと二重引用符で囲まれた部分の 2 つのキャプチャグループに分割します。これらは awk によって配列に格納されa、キー文字列でインデックス付けされた連想配列に保存されますkey。

次に、必要なキーごとに値を出力し、次の行のために値をクリアします (その行にこのキーがない場合)。明らかに、これはすべてのデータが必要な構造を持っていることを前提としており、値内の (") やアルファベット以外の文字を含むキーを処理するために変更が必要になります。

gnu awk (gawk) の 4.0 より前のバージョンには、行をパターンに一致するフィールドに分割する組み込み機能がないFPATため、自分で行う必要があります。

#!/bin/bash
awk -v lhs="$*" '
BEGIN{ nwant = split(lhs,want) }
{       input = $0
        while(match(input,"[a-z-]*=\"[^\"]*\"")>0){
            field = substr(input,RSTART,RLENGTH)
            input = substr(input,RSTART+RLENGTH)
            start = match(field,/([a-z-]*)="([^"]*)"/,a)
            key[a[1]] = a[2]
        }
        for(i=1;i<=nwant;i++){printf "%s ",key[want[i]]; key[want[i]] = ""}
        printf "\n"
}'

もちろん、2 つのマッチ呼び出しを 1 つに組み合わせることもできますが、これはオリジナルとの違いを示しています。

Answer

データは高度に構造化されており、キー="値"したがって、キー名のリストを引数として受け取り、それらの値を出力するだけの小さなシェルスクリプトを gnu awk で記述できます。例myscript:

#!/bin/bash
awk -v lhs="$*" '
BEGIN{  FPAT = "[a-z-]*=\"[^\"]*\""
        nwant = split(lhs,want)
}
{       for(i=1;i<=NF;i++){
            start = match($i,/([a-z-]*)="([^"]*)"/,a)
            key[a[1]] = a[2]
        }
        for(i=1;i<=nwant;i++){printf "%s ",key[want[i]]; key[want[i]] = ""}
        printf "\n"
}'

これをとして呼び出しますmyscript srcip categoryname url。これにより、awk 変数がlhs引数の 1 つの文字列として設定されますwant。引数は先頭で配列に分割されます。行は awk によってパターンに一致するフィールドに分割されます。キー="値"組み込みFPAT変数を使用します。

各行で、各フィールドをmatch()キーと二重引用符で囲まれた部分の 2 つのキャプチャグループに分割します。これらは awk によって配列に格納されa、キー文字列でインデックス付けされた連想配列に保存されますkey。

次に、必要なキーごとに値を出力し、次の行のために値をクリアします (その行にこのキーがない場合)。明らかに、これはすべてのデータが必要な構造を持っていることを前提としており、値内の (") やアルファベット以外の文字を含むキーを処理するために変更が必要になります。

gnu awk (gawk) の 4.0 より前のバージョンには、行をパターンに一致するフィールドに分割する組み込み機能がないFPATため、自分で行う必要があります。

#!/bin/bash
awk -v lhs="$*" '
BEGIN{ nwant = split(lhs,want) }
{       input = $0
        while(match(input,"[a-z-]*=\"[^\"]*\"")>0){
            field = substr(input,RSTART,RLENGTH)
            input = substr(input,RSTART+RLENGTH)
            start = match(field,/([a-z-]*)="([^"]*)"/,a)
            key[a[1]] = a[2]
        }
        for(i=1;i<=nwant;i++){printf "%s ",key[want[i]]; key[want[i]] = ""}
        printf "\n"
}'

もちろん、2 つのマッチ呼び出しを 1 つに組み合わせることもできますが、これはオリジナルとの違いを示しています。

Question 2

(POSIX 準拠) を使用するsed...

sed 's/.* srcip="\([^"]*\)" .* url="\([^"]*\)" .* categoryname="\([^"]*\)" .*/\1 \3 \2/' logfile

ここでは特別なことは何もしていません。キーを見つけて、値を括弧で囲むだけで、\(..\)バック参照として使用できます。次に、スペースで区切られ、要件に応じて順序付けられたバック参照のみを含む文字列を置き換えます\1 \3 \2。

出力：

10.11.12.13 Uncategorized https://website.net/
10.13.14.15 Education/Reference http://host.com/mini_banner.png

ログにこれらのキーがすべて含まれていない文字列が含まれている場合は、次を使用できます。

sed -n 's/.* srcip="\([^"]*\)" .* url="\([^"]*\)" .* categoryname="\([^"]*\)" .*/\1 \3 \2/p' logfile

これにより、パターンに一致する行のみが印刷されます。

もちろん、ストリーミング形式で使用したい場合は、ファイル名を削除して[something sending logs to stdout] | sed ...

Answer