Formas de analizar archivos de registro basados en NCSA combinados

Question 1

Usando Perl, probado en v5.10.0 creado para darwin-thread-multi-2level (OSX)

Para imprimir la columna UserAgent:

perl -n -e '/^([^ ]+) ([^ ]+) ([^ ]+) (\[[^\]]+\]) "(.*) (.*) (.*)" ([0-9\-]+) ([0-9\-]+) "(.*)" "(.*)"/; print "$11\n"' -- test.log

opción -nmientras cada línea entest.log
opción -eprograma de una línea

Robé y modifiqué la perla que busqué en Google.del libro de cocina de PHP. Eliminé el $del final del re para admitir formatos personalizados basados en NCSA combinados. El patrón se puede ampliar fácilmente para proporcionar más grupos.

Los grupos de expresiones regulares ()terminan como variables locales $1para$n

Rápido, sucio y muy fácil de extender y escribir.

Algunos ejemplos de canalización de la salida:

| sort | uniqvalores de columna únicos
| sort | uniq | wc -lrecuento de columnas único

Se aceptan críticas y mejoras.

Answer

Usando Perl, probado en v5.10.0 creado para darwin-thread-multi-2level (OSX)

Para imprimir la columna UserAgent:

perl -n -e '/^([^ ]+) ([^ ]+) ([^ ]+) (\[[^\]]+\]) "(.*) (.*) (.*)" ([0-9\-]+) ([0-9\-]+) "(.*)" "(.*)"/; print "$11\n"' -- test.log

opción -nmientras cada línea entest.log
opción -eprograma de una línea

Robé y modifiqué la perla que busqué en Google.del libro de cocina de PHP. Eliminé el $del final del re para admitir formatos personalizados basados en NCSA combinados. El patrón se puede ampliar fácilmente para proporcionar más grupos.

Los grupos de expresiones regulares ()terminan como variables locales $1para$n

Rápido, sucio y muy fácil de extender y escribir.

Algunos ejemplos de canalización de la salida:

| sort | uniqvalores de columna únicos
| sort | uniq | wc -lrecuento de columnas único

Se aceptan críticas y mejoras.

Question 2

Aunque no aborda directamente la calificación del texto, un factor que se puede aprovechar en el formato combinado es que las columnas restantes delimitadas por espacios están consistentemente en la misma columna. Por lo tanto, puede solucionar el problema utilizando un bucle con printf y NF (número de columnas).

Según awk, $0 es la línea de entrada completa, $1 es la primera columna, $2 es la segunda y $NF es la última.

Entonces, para una NCSA estándar combinada, el agente de usuario es desde las columnas $13 hasta la columna $NF

Necesitaba eliminar la primera columna e intercambiarla con la última columna de un formato de registro modificado (la IP proxy se agregó a la última columna).

Entonces, lo que se debería devolver era la columna $NF, seguida de la segunda columna ($2) y luego las columnas restantes hasta NF - 1.

Pude hacer eso con lo siguiente: -

awk '{ printf "%s ", $NF; for (i=2; i<=NF-1; i++) printf "%s ", $i; printf "\n";}' < /var/log/nginx/access.log

Answer