Predecir fallas del sistema

Predecir fallas del sistema

¿Existe alguna manera de predecir la falla de un servidor midiendo parámetros del sistema como el uso de la CPU, el uso de la memoria, etc.?

El fallo puede deberse a diferentes motivos.

Mi pregunta estaba mal redactada. De ahí esta edición

EDITAR

¿Podemos utilizar algún tipo de aprendizaje automático a partir de los datos recopilados (parámetros del sistema) para predecir si el servidor dejará de funcionar?

Tendríamos registros de las condiciones del servidor cuando estaba activo y cuando fallaba.

Respuesta1

Cómprese un servidor y componentes que se prueben periódicamente y le informen sobre las advertencias "previas al fallo". Es la capacidad de los servidores para hacer esto lo que realmente marca la diferencia entre los mejores jugadores (HP, IBM, Dell) y las marcas menores: cuesta más, por supuesto, pero para algunos vale la pena.

Por ejemplo, el servidor HP DL380 Gen9 tiene literalmente cientos de sensores alrededor de la unidad y sus componentes que se combinan para proporcionar estas advertencias "previas a la falla" cuando sea posible. Esto realmente funciona de forma rutinaria y sus contratos de soporte, nuevamente no baratos, permiten intercambiar hardware en función de esta información: puede intercambiar un disco/controlador/memoria/CPU/PSU, etc.ANTESsu fracaso te impacta.

Entonces, para resumir, si la disponibilidad es clave para usted, compre servidores que puedan hacer esto y configúrelos para reportar esta información a medida que sucede.

Respuesta2

No, al menos no de manera general, ya que los diferentes sistemas son muy diferentes en casi todos los aspectos que puedes comprobar. Como ejemplo, en mis servidores web me preocuparía si alcanzan el 100% de la CPU durante más de un tiempo muy breve, pero en los nodos de cómputo, no tener un uso del 100% de la CPU podría ser un indicio de preocupación.

Podría intentar instalar algún sistema de monitoreo (por ejemplo, Nagios/Icinga) y generar parámetros de umbral que tengan sentido en su caso de uso específico, pero debe pensar detenidamente qué parámetros verificar y qué umbrales establecer para su caso específico. circunstancias.

información relacionada