
Какова стратегия обнаружения дрейфа времени во всех центрах обработки данных на базе Linux? Это более сложная проблема, чем кажется на первый взгляд.
Дрейф времени может вызвать серьезные проблемы для определенных приложений, и часто, даже если установлен NTP, возможны сбои по следующим (и многим другим) причинам:
- NTP не был правильно настроен на автоматический перезапуск при перезагрузке.
- Настройки сервера неверны, поэтому сервер времени, на который он указывает, недоступен или неточен.
- Главный сервер времени недоступен, и все серверы, синхронизирующиеся с ним, теперь синхронизируются с ненадежным источником.
Мне бы хотелось найти способ определить, все ли отдельные серверы верны. Имейте в виду, что сервер с тестовым скриптом/приложением может быть неверным.
решение1
Это легко контролировать. Управление конфигурацией — это ключ...
Убедитесь, что служба ntp запущена и настроена...
Например, используяМонитубедиться, ntpd
что он работает, и перезапустить его в случае сбоя — это простой подход... Возможно, имеет смысл добавить cron и другие необходимые демоны для такого рода проверки.
Другой вариант — использоватьуправление конфигурациейинструмент какКукольныйчтобы принудительно применить тот же ntpd.conf к вашим серверам и убедиться, что ntpd установлен, настроен и запущен.
В протоколе NTP достаточно избыточности, чтобы справиться с экземпляром сервера времени, который недоступен. Укажите несколько источников.
решение2
Существует множество плагинов check_ntp длянагиостам.
Вот один из них:
http://nagiosplugins.org/man/check_ntp
Добавьте эту проверку на свой хост Nagios и получайте оповещения, если что-то пойдет не так.