
CPU 使用率、メモリ使用量などのシステム パラメータを測定してサーバーの障害を予測する方法はありますか?
失敗にはさまざまな理由が考えられます。
私の質問は言葉遣いが悪かったので、この編集をしました
編集
収集されたデータ (システム パラメーター) から何らかの機械学習を使用して、サーバーがダウンするかどうかを予測できますか?
サーバーが稼働していたときと故障したときの状態のログが記録されます
答え1
定期的に自己テストを行い、「事前障害」警告を報告するサーバーとコンポーネントを購入してください。サーバーのこの機能こそが、トップ プレーヤー (HP、IBM、Dell) と下位メーカーの違いを明確に示すものです。もちろんコストは高くなりますが、一部の人にとってはそれだけの価値があります。
たとえば、HP DL380 Gen9 サーバーには、ユニットとそのコンポーネントの周囲に文字通り何百ものセンサーがあり、可能な場合はこれらの「事前障害」警告を提供するために組み合わされています。これは実際に定期的に機能しており、サポート契約 (これも安くはありません) では、この情報に基づいてハードウェアを交換できます。ディスク/コントローラー/メモリ/CPU/PSU などを交換できます。前にその失敗はあなたに影響を与えます。
まとめると、可用性が重要な場合は、可用性を実現できるサーバーを購入し、発生時にこの情報を報告するようにサーバーを構成します。
答え2
いいえ、少なくとも一般的な意味ではそうではありません。異なるシステムは、チェックするほぼすべての側面で非常に大きく異なるからです。たとえば、Web サーバーでは、CPU 使用率が非常に短い時間以上 100% に達すると心配になりますが、コンピューティング ノードでは、CPU 使用率が 100% にならないことが懸念の兆候となる可能性があります。
何らかの監視システム (Nagios/Icinga など) をインストールして、特定のユースケースに適したしきい値パラメータを設定することもできますが、特定の状況に合わせてどのパラメータをチェックし、どのしきい値を設定するかについて、じっくり検討する必要があります。