システム障害を予測する

Question 1

定期的に自己テストを行い、「事前障害」警告を報告するサーバーとコンポーネントを購入してください。サーバーのこの機能こそが、トッププレーヤー (HP、IBM、Dell) と下位メーカーの違いを明確に示すものです。もちろんコストは高くなりますが、一部の人にとってはそれだけの価値があります。

たとえば、HP DL380 Gen9 サーバーには、ユニットとそのコンポーネントの周囲に文字通り何百ものセンサーがあり、可能な場合はこれらの「事前障害」警告を提供するために組み合わされています。これは実際に定期的に機能しており、サポート契約 (これも安くはありません) では、この情報に基づいてハードウェアを交換できます。ディスク/コントローラー/メモリ/CPU/PSU などを交換できます。前にその失敗はあなたに影響を与えます。

まとめると、可用性が重要な場合は、可用性を実現できるサーバーを購入し、発生時にこの情報を報告するようにサーバーを構成します。

Answer

定期的に自己テストを行い、「事前障害」警告を報告するサーバーとコンポーネントを購入してください。サーバーのこの機能こそが、トッププレーヤー (HP、IBM、Dell) と下位メーカーの違いを明確に示すものです。もちろんコストは高くなりますが、一部の人にとってはそれだけの価値があります。

たとえば、HP DL380 Gen9 サーバーには、ユニットとそのコンポーネントの周囲に文字通り何百ものセンサーがあり、可能な場合はこれらの「事前障害」警告を提供するために組み合わされています。これは実際に定期的に機能しており、サポート契約 (これも安くはありません) では、この情報に基づいてハードウェアを交換できます。ディスク/コントローラー/メモリ/CPU/PSU などを交換できます。前にその失敗はあなたに影響を与えます。

まとめると、可用性が重要な場合は、可用性を実現できるサーバーを購入し、発生時にこの情報を報告するようにサーバーを構成します。

Question 2

いいえ、少なくとも一般的な意味ではそうではありません。異なるシステムは、チェックするほぼすべての側面で非常に大きく異なるからです。たとえば、Web サーバーでは、CPU 使用率が非常に短い時間以上 100% に達すると心配になりますが、コンピューティングノードでは、CPU 使用率が 100% にならないことが懸念の兆候となる可能性があります。

何らかの監視システム (Nagios/Icinga など) をインストールして、特定のユースケースに適したしきい値パラメータを設定することもできますが、特定の状況に合わせてどのパラメータをチェックし、どのしきい値を設定するかについて、じっくり検討する必要があります。

Answer

いいえ、少なくとも一般的な意味ではそうではありません。異なるシステムは、チェックするほぼすべての側面で非常に大きく異なるからです。たとえば、Web サーバーでは、CPU 使用率が非常に短い時間以上 100% に達すると心配になりますが、コンピューティングノードでは、CPU 使用率が 100% にならないことが懸念の兆候となる可能性があります。

何らかの監視システム (Nagios/Icinga など) をインストールして、特定のユースケースに適したしきい値パラメータを設定することもできますが、特定の状況に合わせてどのパラメータをチェックし、どのしきい値を設定するかについて、じっくり検討する必要があります。

システム障害を予測する

答え1

答え2

関連情報