Должны ли такие вещи, как производительность базы данных, быть включены в проверку работоспособности?

Question

Вероятно, вам не следует отслеживать производительность базы данных через пути проверки работоспособности приложения — могут возникнуть некоторые опасные случаи. Допустим, вы используете ASG в AWS и используете проверки работоспособности LB для определения того, следует ли ASG менять машины. Если у вас начнется конкуренция в базе данных (не связанная с вашим приложением), ваш ASG начнет удалять узлы. Таким образом, у вас будет не только плохо работающая база данных, но и истощенный ASG.

Обычно производительность должна отслеживаться вне диапазона работоспособности. Мы активно используем statsd и перекачиваем в него все наши метрики, приложения и базы данных, чтобы иметь возможность строить графики и оповещать на их основе.

Также имейте в виду, что по мере масштабирования скорость проверки работоспособности также будет масштабироваться — у нас есть некоторые службы, которые получают тысячи запросов на проверку работоспособности в секунду, и если каждый из них выполняет синтетический дорогостоящий запрос, наш уровень данных отключится.

Логика также усложняется по мере добавления слоев кэширования — что должна возвращать конечная точка проверки работоспособности, если база данных работоспособна, а ваш кэш KV — нет?

В целом, хотя сквозной мониторинг имеет решающее значение для эффективной стратегии мониторинга, я настоятельно рекомендую использовать внешний мониторинг для существующих показателей запросов, которые поступают в базу данных, — они отражают реальную производительность пользователя и предоставят вам количественную метрику того, как на самом деле работает ваше приложение.

Answer 1