Maneiras de analisar arquivos de log baseados em combinação NCSA

Question 1

Usando Perl, testado em v5.10.0 criado para darwin-thread-multi-2level (OSX)

Para imprimir a coluna UserAgent:

perl -n -e '/^([^ ]+) ([^ ]+) ([^ ]+) (\[[^\]]+\]) "(.*) (.*) (.*)" ([0-9\-]+) ([0-9\-]+) "(.*)" "(.*)"/; print "$11\n"' -- test.log

opção -nenquanto cada linha emtest.log
opção -eprograma de uma linha

Eu roubei e ajustei o perlre que pesquisei no Googledo livro de receitas do PHP. Removi o $final do re para oferecer suporte a formatos personalizados baseados em NCSA combinados. O padrão pode ser facilmente estendido para fornecer mais grupos.

Os grupos de expressões regulares ()acabam como variáveis locais $1para$n

Rápido e sujo e muito fácil de estender e criar scripts.

Alguns exemplos de canalização da saída:

| sort | uniqvalores de coluna exclusivos
| sort | uniq | wc -lcontagem única de colunas

Críticas e melhorias são bem-vindas

Answer

Usando Perl, testado em v5.10.0 criado para darwin-thread-multi-2level (OSX)

Para imprimir a coluna UserAgent:

perl -n -e '/^([^ ]+) ([^ ]+) ([^ ]+) (\[[^\]]+\]) "(.*) (.*) (.*)" ([0-9\-]+) ([0-9\-]+) "(.*)" "(.*)"/; print "$11\n"' -- test.log

opção -nenquanto cada linha emtest.log
opção -eprograma de uma linha

Eu roubei e ajustei o perlre que pesquisei no Googledo livro de receitas do PHP. Removi o $final do re para oferecer suporte a formatos personalizados baseados em NCSA combinados. O padrão pode ser facilmente estendido para fornecer mais grupos.

Os grupos de expressões regulares ()acabam como variáveis locais $1para$n

Rápido e sujo e muito fácil de estender e criar scripts.

Alguns exemplos de canalização da saída:

| sort | uniqvalores de coluna exclusivos
| sort | uniq | wc -lcontagem única de colunas

Críticas e melhorias são bem-vindas

Question 2

Embora não aborde diretamente a qualificação de texto, um fator que pode ser aproveitado no formato combinado é que as colunas restantes delimitadas por espaço estão consistentemente na mesma coluna. Você pode, portanto, contornar o problema usando um loop com printf e NF (número de colunas)

De acordo com o awk, $0 é a linha de entrada inteira, $1 é a primeira coluna, $2 é a segunda e $NF é a última.

Portanto, para um NCSA padrão combinado, o agente do usuário vai das colunas $ 13 até a coluna $ NF

Precisei remover a primeira coluna e trocá-la pela última coluna de um formato de log modificado (o IP proxy foi adicionado à última coluna).

Então o que deveria ser retornado era a coluna $NF, seguida pela segunda coluna ($2), e depois as colunas restantes até NF - 1

Consegui fazer isso com o seguinte: -

awk '{ printf "%s ", $NF; for (i=2; i<=NF-1; i++) printf "%s ", $i; printf "\n";}' < /var/log/nginx/access.log

Answer