NCSA 結合ベースのログファイルを解析する方法

Question 1

Perl を使用し、darwin-thread-multi-2level (OSX) 用にビルドされた v5.10.0 でテスト済み

UserAgent 列を印刷するには:

perl -n -e '/^([^ ]+) ([^ ]+) ([^ ]+) (\[[^\]]+\]) "(.*) (.*) (.*)" ([0-9\-]+) ([0-9\-]+) "(.*)" "(.*)"/; print "$11\n"' -- test.log

私はグーグルで調べたパールを盗んで微調整しましたPHPクックブックより$NCSA Combined に基づくカスタムフォーマットをサポートするために、 re の末尾からを削除しました。パターンは簡単に拡張でき、より多くのグループを提供できます。

正規表現グループは()ローカル変数$1として$n

素早く簡単に拡張およびスクリプト化できます。

出力をパイプする例をいくつか示します。

批判や改善は歓迎します

Answer

Perl を使用し、darwin-thread-multi-2level (OSX) 用にビルドされた v5.10.0 でテスト済み

UserAgent 列を印刷するには:

perl -n -e '/^([^ ]+) ([^ ]+) ([^ ]+) (\[[^\]]+\]) "(.*) (.*) (.*)" ([0-9\-]+) ([0-9\-]+) "(.*)" "(.*)"/; print "$11\n"' -- test.log

私はグーグルで調べたパールを盗んで微調整しましたPHPクックブックより$NCSA Combined に基づくカスタムフォーマットをサポートするために、 re の末尾からを削除しました。パターンは簡単に拡張でき、より多くのグループを提供できます。

正規表現グループは()ローカル変数$1として$n

素早く簡単に拡張およびスクリプト化できます。

出力をパイプする例をいくつか示します。

批判や改善は歓迎します

Question 2

テキストの修飾に直接対処するわけではありませんが、結合形式で利用できる要素の 1 つは、残りのスペースで区切られた列が一貫して同じ列にあることです。したがって、printf と NF (列数) を使用したループを使用して問題を回避できます。

awk によれば、$0 は入力行全体、$1 は最初の列、$2 は 2 番目の列、$NF は最後の列です。

したがって、標準のNCSA結合の場合、ユーザーエージェントは列$13から列$NFまでです。

最初の列を削除し、変更されたログ形式の最後の列と交換する必要がありました (プロキシされた IP が最後の列に追加されました)。

したがって、返されるのは$NF列、次に2番目の列（$2）、そして残りの列からNF - 1までです。

私は次のようにしてそれを行うことができました:-

awk '{ printf "%s ", $NF; for (i=2; i<=NF-1; i++) printf "%s ", $i; printf "\n";}' < /var/log/nginx/access.log

Answer