Möglichkeiten zum Parsen kombinierter NCSA-Protokolldateien

Question 1

Mit Perl, getestet auf v5.10.0, erstellt für Darwin-Thread-Multi-2-Level (OSX)

So drucken Sie die Spalte „UserAgent“:

perl -n -e '/^([^ ]+) ([^ ]+) ([^ ]+) (\[[^\]]+\]) "(.*) (.*) (.*)" ([0-9\-]+) ([0-9\-]+) "(.*)" "(.*)"/; print "$11\n"' -- test.log

Option -n, während jede Zeile intest.log
Option -eEinzeilenprogramm

Ich habe die Perle, die ich gegoogelt habe, gestohlen und verändert.aus dem PHP-Kochbuch. Ich habe das $am Ende des re entfernt, um benutzerdefinierte Formate basierend auf kombiniertem NCSA zu unterstützen. Das Muster kann leicht erweitert werden, um weitere Gruppen bereitzustellen.

Die regulären Ausdrucksgruppen ()enden als lokale Variablen $1in$n

Schnell und einfach und sehr einfach zu erweitern und zu skripten.

Einige Beispiele für die Weiterleitung der Ausgabe:

| sort | uniqeindeutige Spaltenwerte
| sort | uniq | wc -lAnzahl eindeutiger Spalten

Kritik und Verbesserungen willkommen

Answer

Mit Perl, getestet auf v5.10.0, erstellt für Darwin-Thread-Multi-2-Level (OSX)

So drucken Sie die Spalte „UserAgent“:

perl -n -e '/^([^ ]+) ([^ ]+) ([^ ]+) (\[[^\]]+\]) "(.*) (.*) (.*)" ([0-9\-]+) ([0-9\-]+) "(.*)" "(.*)"/; print "$11\n"' -- test.log

Option -n, während jede Zeile intest.log
Option -eEinzeilenprogramm

Ich habe die Perle, die ich gegoogelt habe, gestohlen und verändert.aus dem PHP-Kochbuch. Ich habe das $am Ende des re entfernt, um benutzerdefinierte Formate basierend auf kombiniertem NCSA zu unterstützen. Das Muster kann leicht erweitert werden, um weitere Gruppen bereitzustellen.

Die regulären Ausdrucksgruppen ()enden als lokale Variablen $1in$n

Schnell und einfach und sehr einfach zu erweitern und zu skripten.

Einige Beispiele für die Weiterleitung der Ausgabe:

| sort | uniqeindeutige Spaltenwerte
| sort | uniq | wc -lAnzahl eindeutiger Spalten

Kritik und Verbesserungen willkommen

Question 2

Obwohl es nicht direkt auf die Textqualifizierung eingeht, kann man sich im kombinierten Format einen Vorteil verschaffen: Die verbleibenden durch Leerzeichen getrennten Spalten befinden sich immer in derselben Spalte. Sie können das Problem daher umgehen, indem Sie eine Schleife mit printf und NF (Anzahl der Spalten) verwenden.

Laut awk ist $0 die gesamte Eingabezeile, $1 die erste Spalte, $2 die zweite und $NF die letzte.

Für einen kombinierten Standard-NCSA umfasst der Benutzeragent also die Spalten $13 bis $NF.

Ich musste die erste Spalte entfernen und sie mit der letzten Spalte eines geänderten Protokollformats ersetzen (die Proxy-IP wurde der letzten Spalte hinzugefügt).

Was also zurückgegeben werden sollte, war die Spalte $NF, gefolgt von der zweiten Spalte ($2) und dann die restlichen Spalten bis NF - 1

Das konnte ich folgendermaßen erreichen: -

awk '{ printf "%s ", $NF; for (i=2; i<=NF-1; i++) printf "%s ", $i; printf "\n";}' < /var/log/nginx/access.log

Answer