Nagios を使用して、到達不能/ダウン期間中のサーバーのパフォーマンス データを収集するにはどうすればよいですか?

Nagios を使用して、到達不能/ダウン期間中のサーバーのパフォーマンス データを収集するにはどうすればよいですか?

サーバーのパフォーマンスが悪いために、サービスとホストが応答しなくなることがあります。つまり、何らかの理由 (同時実行サービスへのアクセスが多い、サーバー上での高価なバックアップ実行など、大量のサーバー リソースを消費する何らかの理由) でサーバーのパフォーマンスが大幅に低下すると、サーバーが「通常のネットワーク通信」を確立できなくなる可能性があります (そのような通信に定義されている標準のタイムアウトをトリガーしない限り)。

その期間中に利用可能な場合(ホストがダウンしておらず、パフォーマンスが低下しているにもかかわらず、プラグインがパフォーマンス データを収集できる場合)のホストのパフォーマンス データ(CPU、メモリなど)を知ることは、システム管理者が問題の原因を特定したり、少なくともホストのパフォーマンスが良好で、ホスト/サービスのダウンにまったく影響しなかったかどうかを判断するのに非常に役立ちます。

この問題は、リモート アクティブ (NRPE) またはリモート パッシブ (NSCA) を使用して解決できます。ただし、このようなリモート ソリューションでは、ホストのパフォーマンスまたはネットワークの停止が許す場合に、中央の Nagios サーバーに送信する (バッファリングされた) パフォーマンス データを保存できる必要があります。両方のソリューションのドキュメントを読みましたが、このようなバッファ メカニズムに関する参照も、NSCA が Nagios サーバーに到達できない場合に何が起こるかについても見つかりませんでした。

この情報不足を解決する方法をご存知ですか? 法医学的分析に非常に役立ちます。

編集:

私の質問は、パフォーマンスの問題をデバッグしたり、分析のためにパフォーマンスデータを収集したりするためにどのツールを使用できるかについてではなく、ネットワークが停止しているときでも、事後分析(一種のフォレンジック分析)のためにホストのパフォーマンスデータを収集(Nagios を使用)する方法についてです。アイデアは、そのようなデータを pnp4nagios や NagiosGrapther などの Nagios グラファーに統合することです。各ホストに Cacti などのツールをインストールして、パフォーマンス データ収集の冗長性を持たせることはわかっていますが、私はそれを避けて、すべてのパフォーマンス分析要件を 1 つのツールで解決したいと考えています。Nagios

答え1

Nagios についてはよくわかりませんが、サーバーにログインできる場合は、以下の詳細を収集すると、問題を絞り込むのに役立ちます。以下のコマンドを使用すると、CPU とメモリを多く消費しているのは誰か、またはシステムが OOM 状態にあるかどうかを特定できます。

top -n 5 -b 
vmstat 1 50 
iostat -x 2 10
ps -aufx 
sar 1 50 
cat /proc/meminfo 
cat /proc/buddyinfo 

関連情報