Prever falha do sistema

Prever falha do sistema

Existe uma maneira de prever a falha de um servidor medindo parâmetros do sistema, como uso de CPU, uso de memória, etc.?

A falha pode ser por diferentes motivos.

Minha pergunta foi mal formulada. Daí esta edição

EDITAR

Podemos usar algum tipo de aprendizado de máquina a partir dos dados coletados (parâmetros do sistema) para prever se o servidor irá cair?

Teríamos registros das condições do servidor quando ele estava ativo e também quando falhou

Responder1

Compre um servidor e componentes que se testem periodicamente e reportem avisos de 'pré-falha'. É a capacidade dos servidores fazerem isso que realmente estabelece a diferença entre os principais players (HP, IBM, Dell) e marcas menores - custa mais, é claro, mas para alguns vale a pena.

Por exemplo, o servidor HP DL380 Gen9 tem literalmente centenas de sensores em torno da unidade e dos seus componentes que se combinam para fornecer estes avisos de “pré-falha” sempre que possível. Isso realmente funciona rotineiramente e seus contratos de suporte, novamente não são baratos, permitem que o hardware seja trocado com base nessas informações - você pode trocar um disco/controlador/memória/CPU/PSU etc.ANTESseu fracasso afeta você.

Então, para resumir, se a disponibilidade é fundamental para você, compre servidores que possam fazer isso e configure-os para relatar essas informações conforme elas acontecem.

Responder2

Não, pelo menos não de uma forma geral, já que diferentes sistemas são muito diferentes em todos os aspectos que você pode verificar. Por exemplo, em meus servidores web eu ficaria preocupado se eles atingissem 100% da CPU por mais de um tempo muito curto, mas nos nós de computação, não ter 100% de uso da CPU pode ser uma indicação de preocupação.

Você poderia tentar instalar algum sistema de monitoramento (por exemplo, Nagios/Icinga) e criar parâmetros de limite que façam sentido em seu caso de uso específico, mas você terá que pensar muito sobre quais parâmetros verificar e quais limites definir para seu caso específico. circunstâncias.

informação relacionada