Способы анализа объединенных файлов журналов NCSA

Question 1

Использует Perl, протестировано на версии 5.10.0, собранной для darwin-thread-multi-2level (OSX)

Чтобы распечатать столбец UserAgent:

perl -n -e '/^([^ ]+) ([^ ]+) ([^ ]+) (\[[^\]]+\]) "(.*) (.*) (.*)" ([0-9\-]+) ([0-9\-]+) "(.*)" "(.*)"/; print "$11\n"' -- test.log

вариант -n, пока каждая строка вtest.log
вариант -eоднострочной программы

Я украл и подправил перл, который я искал в Googleиз книги рецептов PHP. Я удалил $из конца re для поддержки пользовательских форматов на основе NCSA combined. Шаблон можно легко расширить, чтобы предоставить больше групп.

Группы регулярных выражений ()в конечном итоге становятся локальными $1переменными$n

Быстрый и грязный, очень простой в расширении и написании сценариев.

Некоторые примеры конвейеризации вывода:

| sort | uniqуникальные значения столбцов
| sort | uniq | wc -lуникальное количество столбцов

Критика и улучшения приветствуются

Answer

Использует Perl, протестировано на версии 5.10.0, собранной для darwin-thread-multi-2level (OSX)

Чтобы распечатать столбец UserAgent:

perl -n -e '/^([^ ]+) ([^ ]+) ([^ ]+) (\[[^\]]+\]) "(.*) (.*) (.*)" ([0-9\-]+) ([0-9\-]+) "(.*)" "(.*)"/; print "$11\n"' -- test.log

вариант -n, пока каждая строка вtest.log
вариант -eоднострочной программы

Я украл и подправил перл, который я искал в Googleиз книги рецептов PHP. Я удалил $из конца re для поддержки пользовательских форматов на основе NCSA combined. Шаблон можно легко расширить, чтобы предоставить больше групп.

Группы регулярных выражений ()в конечном итоге становятся локальными $1переменными$n

Быстрый и грязный, очень простой в расширении и написании сценариев.

Некоторые примеры конвейеризации вывода:

| sort | uniqуникальные значения столбцов
| sort | uniq | wc -lуникальное количество столбцов

Критика и улучшения приветствуются

Question 2

Хотя это не решает напрямую квалификацию текста, один фактор, который можно использовать в комбинированном формате, заключается в том, что оставшиеся столбцы, разделенные пробелами, находятся последовательно в одном и том же столбце. Поэтому вы можете обойти эту проблему, используя цикл с printf и NF (количество столбцов)

Согласно awk, $0 — это вся входная строка, $1 — первый столбец, $2 — второй, а $NF — последний.

Таким образом, для стандартного NCSA объединенный пользовательский агент - это столбцы от $13 до $NF.

Мне нужно было удалить первый столбец и поменять его местами с последним столбцом измененного формата журнала (проксированный IP был добавлен в последний столбец).

Итак, должен быть возвращен столбец $NF, за которым следует второй столбец ($2), а затем оставшиеся столбцы до NF - 1.

Мне удалось сделать это с помощью следующего:

awk '{ printf "%s ", $NF; for (i=2; i<=NF-1; i++) printf "%s ", $i; printf "\n";}' < /var/log/nginx/access.log

Answer