システム障害を予測する

システム障害を予測する

CPU 使用率、メモリ使用量などのシステム パラメータを測定してサーバーの障害を予測する方法はありますか?

失敗にはさまざまな理由が考えられます。

私の質問は言葉遣いが悪かったので、この編集をしました

編集

収集されたデータ (システム パラメーター) から何らかの機械学習を使用して、サーバーがダウンするかどうかを予測できますか?

サーバーが稼働していたときと故障したときの状態のログが記録されます

答え1

定期的に自己テストを行い、「事前障害」警告を報告するサーバーとコンポーネントを購入してください。サーバーのこの機能こそが、トップ プレーヤー (HP、IBM、Dell) と下位メーカーの違いを明確に示すものです。もちろんコストは高くなりますが、一部の人にとってはそれだけの価値があります。

たとえば、HP DL380 Gen9 サーバーには、ユニットとそのコンポーネントの周囲に文字通り何百ものセンサーがあり、可能な場合はこれらの「事前障害」警告を提供するために組み合わされています。これは実際に定期的に機能しており、サポート契約 (これも安くはありません) では、この情報に基づいてハードウェアを交換できます。ディスク/コントローラー/メモリ/CPU/PSU などを交換できます。前にその失敗はあなたに影響を与えます。

まとめると、可用性が重要な場合は、可用性を実現できるサーバーを購入し、発生時にこの情報を報告するようにサーバーを構成します。

答え2

いいえ、少なくとも一般的な意味ではそうではありません。異なるシステムは、チェックするほぼすべての側面で非常に大きく異なるからです。たとえば、Web サーバーでは、CPU 使用率が非常に短い時間以上 100% に達すると心配になりますが、コンピューティング ノードでは、CPU 使用率が 100% にならないことが懸念の兆候となる可能性があります。

何らかの監視システム (Nagios/Icinga など) をインストールして、特定のユースケースに適したしきい値パラメータを設定することもできますが、特定の状況に合わせてどのパラメータをチェックし、どのしきい値を設定するかについて、じっくり検討する必要があります。

関連情報