
Есть ли способ предсказать сбой сервера, измеряя системные параметры, такие как загрузка ЦП, использование памяти и т. д.?
Причины сбоя могут быть разными.
Мой вопрос был сформулирован неудачно. Отсюда и это редактирование.
РЕДАКТИРОВАТЬ
Можем ли мы использовать машинное обучение на основе собранных данных (параметров системы), чтобы предсказать, выйдет ли сервер из строя?
У нас будут журналы состояний сервера, когда он был активен, а также когда он выходил из строя.
решение1
Купите себе сервер и компоненты, которые периодически проверяют себя и сообщают о предупреждениях «предотказного» характера. Именно способность серверов делать это действительно отличает их от лучших игроков (HP, IBM, Dell) от менее известных производителей — это, конечно, стоит дороже, но для некоторых это того стоит.
Например, сервер HP DL380 Gen9 имеет буквально сотни датчиков вокруг устройства и его компонентов, которые объединяются, чтобы выдавать эти предупреждения «до сбоя», когда это возможно. Это действительно работает регулярно, и их контракты на поддержку, опять же недешевые, позволяют заменять оборудование на основе этой информации — вы можете заменить диск/контроллер/память/ЦП/БП и т. д.ДОего неудача влияет на вас.
Итак, подведем итог: если доступность имеет для вас решающее значение, то покупайте серверы, которые могут это делать, и настраивайте их на передачу этой информации по мере ее поступления.
решение2
Нет, по крайней мере, не в общем, поскольку разные системы сильно отличаются друг от друга почти в каждом аспекте, который вы можете проверить. Например, на моих веб-серверах я бы волновался, если бы они достигли 100% CPU на более чем очень короткое время, но на вычислительных узлах отсутствие 100% использования CPU может быть признаком беспокойства.
Вы можете попробовать установить какую-нибудь систему мониторинга (например, Nagios/Icinga) и придумать пороговые параметры, которые будут иметь смысл в вашем конкретном случае использования, но вам придется долго и упорно думать о том, какие параметры проверять и какие пороговые значения устанавливать для ваших конкретных обстоятельств.