解析基於 NCSA 組合的日誌檔案的方法

Question 1

使用 Perl，在為 darwin-thread-multi-2level (OSX) 建構的 v5.10.0 上進行測試

要列印 UserAgent 列：

perl -n -e '/^([^ ]+) ([^ ]+) ([^ ]+) (\[[^\]]+\]) "(.*) (.*) (.*)" ([0-9\-]+) ([0-9\-]+) "(.*)" "(.*)"/; print "$11\n"' -- test.log

我偷了並調整了我在谷歌上搜尋到的 perlre來自 PHP 食譜。我$從末尾刪除了 re 以支援基於 NCSA 組合的自訂格式。此模式可以輕鬆擴展以提供更多組。

正規表示式組()最終作為局部$1變量$n

快速而骯髒，並且非常容易擴展和編寫腳本。

管道輸出的一些範例：

歡迎批評和改進

Answer

使用 Perl，在為 darwin-thread-multi-2level (OSX) 建構的 v5.10.0 上進行測試

要列印 UserAgent 列：

perl -n -e '/^([^ ]+) ([^ ]+) ([^ ]+) (\[[^\]]+\]) "(.*) (.*) (.*)" ([0-9\-]+) ([0-9\-]+) "(.*)" "(.*)"/; print "$11\n"' -- test.log

我偷了並調整了我在谷歌上搜尋到的 perlre來自 PHP 食譜。我$從末尾刪除了 re 以支援基於 NCSA 組合的自訂格式。此模式可以輕鬆擴展以提供更多組。

正規表示式組()最終作為局部$1變量$n

快速而骯髒，並且非常容易擴展和編寫腳本。

管道輸出的一些範例：

歡迎批評和改進

Question 2

儘管它不直接解決文字限定問題，但在組合格式中可以利用的一個因素是剩餘的空格分隔列始終位於同一列中。因此，您可以透過使用帶有 printf 和 NF（列數）的循環來解決該問題

根據 awk 的說法，$0 是整個輸入行，$1 是第一列，$2 是第二列，$NF 是最後一列。

因此，對於標準 NCSA 組合，用戶代理是列 $13 到列 $NF

我需要刪除第一列並將其與修改後的日誌格式的最後一列交換（代理IP已新增到最後一列）。

所以應該回傳的是 $NF 列，然後是第二列 ($2)，然後是剩餘的列直到 NF - 1

我能夠透過以下方式做到這一點：-

awk '{ printf "%s ", $NF; for (i=2; i<=NF-1; i++) printf "%s ", $i; printf "\n";}' < /var/log/nginx/access.log

Answer