
Иногда службы и хост перестают отвечать из-за плохой производительности сервера. Я имею в виду, если по какой-то причине (может быть, из-за большого количества параллельных служб, дорогостоящего выполнения резервного копирования на сервере или чего-то еще, что потребляет тонны ресурсов сервера) производительность сервера сильно ухудшилась, это может привести к тому, что сервер не сможет установить никакую "нормальную сетевую связь" (без инициирования любых стандартных тайм-аутов, определенных для такой связи).
Знание данных о производительности хоста (процессор, память и т. д.) в случае их доступности в этот период (хост не отключен и, несмотря на снижение производительности, все еще позволяет плагинам собирать данные о производительности) может быть очень полезным для системного администратора, чтобы попытаться определить причину проблемы или, по крайней мере, если производительность хоста была хорошей и не вмешивалась в работу хоста/службы.
Эту проблему можно решить с помощью удаленного активного (NRPE) или удаленного пассивного (NSCA) режима, если такие удаленные решения могут хранить (буферизировать) данные perf для отправки на центральный сервер Nagios, когда производительность хоста или сбой сети это позволяют. Я прочитал документацию по обоим решениям и не нашел никаких ссылок на такой буферный механизм или на то, что происходит в случае, если NSCA не может связаться с сервером Nagios.
Есть идеи, как решить эту проблему с отсутствием информации? Очень полезно для судебно-медицинского анализа.
РЕДАКТИРОВАТЬ:
Мой вопрос не о том, какие инструменты я могу использовать для отладки проблем производительности или сбора данных производительности для анализа, а о том, как собирать (используя Nagios) данные производительности хоста даже во время отключения сети для их последующего анализа (своего рода криминалистического анализа). Идея заключается в интеграции таких данных в графические редакторы Nagios, такие как pnp4nagios и NagiosGrapther. Я знаю, что я мог бы установить инструменты, такие как Cacti, на каждом из моих хостов и иметь своего рода избыточность сбора данных производительности, но я действительно хочу избежать этого и попытаться решить все требования анализа производительности с помощью одного инструмента: Nagios
решение1
Я не уверен насчет Nagios, но если вы можете войти на сервер, вы соберете нижеприведенные данные, которые помогут вам сузить круг проблем. С помощью приведенной ниже команды вы можете определить, кто потребляет больше ресурсов ЦП и памяти. Или система находится в состоянии OOM.
top -n 5 -b
vmstat 1 50
iostat -x 2 10
ps -aufx
sar 1 50
cat /proc/meminfo
cat /proc/buddyinfo