Предсказать отказ системы

Предсказать отказ системы

Есть ли способ предсказать сбой сервера, измеряя системные параметры, такие как загрузка ЦП, использование памяти и т. д.?

Причины сбоя могут быть разными.

Мой вопрос был сформулирован неудачно. Отсюда и это редактирование.

РЕДАКТИРОВАТЬ

Можем ли мы использовать машинное обучение на основе собранных данных (параметров системы), чтобы предсказать, выйдет ли сервер из строя?

У нас будут журналы состояний сервера, когда он был активен, а также когда он выходил из строя.

решение1

Купите себе сервер и компоненты, которые периодически проверяют себя и сообщают о предупреждениях «предотказного» характера. Именно способность серверов делать это действительно отличает их от лучших игроков (HP, IBM, Dell) от менее известных производителей — это, конечно, стоит дороже, но для некоторых это того стоит.

Например, сервер HP DL380 Gen9 имеет буквально сотни датчиков вокруг устройства и его компонентов, которые объединяются, чтобы выдавать эти предупреждения «до сбоя», когда это возможно. Это действительно работает регулярно, и их контракты на поддержку, опять же недешевые, позволяют заменять оборудование на основе этой информации — вы можете заменить диск/контроллер/память/ЦП/БП и т. д.ДОего неудача влияет на вас.

Итак, подведем итог: если доступность имеет для вас решающее значение, то покупайте серверы, которые могут это делать, и настраивайте их на передачу этой информации по мере ее поступления.

решение2

Нет, по крайней мере, не в общем, поскольку разные системы сильно отличаются друг от друга почти в каждом аспекте, который вы можете проверить. Например, на моих веб-серверах я бы волновался, если бы они достигли 100% CPU на более чем очень короткое время, но на вычислительных узлах отсутствие 100% использования CPU может быть признаком беспокойства.

Вы можете попробовать установить какую-нибудь систему мониторинга (например, Nagios/Icinga) и придумать пороговые параметры, которые будут иметь смысл в вашем конкретном случае использования, но вам придется долго и упорно думать о том, какие параметры проверять и какие пороговые значения устанавливать для ваших конкретных обстоятельств.

Связанный контент