Nagios サーバーの高負荷 - Nagios サーバーのサービス チェックはいくつまでが多すぎるのでしょうか?

Nagios サーバーの高負荷 - Nagios サーバーのサービス チェックはいくつまでが多すぎるのでしょうか?

私は 2.0 GHz Intel プロセッサ、RAID10 アレイ、400 MB の RAM を搭載した Ubuntu を実行する Nagios サーバーを持っています。このサーバーは 8 台のホストで合計 42 のサービスを監視しており、そのほとんどは check_http プラグインを使用して 5 分ごとにチェックされ、一部は 1 分ごとにチェックされます。最近、Nagios サーバーの負荷は 4 を超え、6 に達することもよくあります。サーバーは cacti も実行し、6 台のホストの統計を 1 分ごとに収集しています。

このようなハードウェアは、いくつのサービスを処理できるのでしょうか。負荷が非常に高いのは、ハードウェアの限界を超えているためでしょうか、それともこのハードウェアは 42 のサービス チェックと Cacti を処理できるのでしょうか。ハードウェアが不十分な場合は、RAM やコア、またはより高速なコアを追加する必要があるでしょうか。他の人はどのようなハードウェア / サービス チェックを実行しているのでしょうか。

答え1

ボトルネックがどこにあるかを把握する必要があります...

私は、http、ping、ssh チェックで 400 台以上のホストをチェックする Nagios モニターを実行しています。(他の多くのパッシブ チェックと nscd とともに)

これは、RAID10 で 4 つの SAS ディスクを備えた 2xQuadCore サーバー上にあります。

多数の rrd に書き込むのは非常に非効率なので、IO 競合が発生していると思われます。

どのプロセスがリソースを消費しているかを把握する必要があります。(cacti、nagios、または他の何か)

IO チェックには iotop が便利です。iotop をインストールします (9.04 パッケージは 8.04 で動作します)

しかし、それ以外の場合は、トップは負荷を浪費する人を見つけるのにも役立つはずです。

1 分に 1 回の Cacti はかなり積極的です。(私は 5 メートル間隔で実行しています)

rrd 書き込み競合に対する 1 つのアプローチとして、rrd ストアを ramdisk/tmpfs に置くというものがあります。(定期的に rsync を実行して永続ストレージに保存してください)

幸運を。

答え2

負荷の大部分を生成しているのが cacti でない限り、ハードウェア上でこれよりもはるかに多くのチェックを実行できるはずです。

私は、非常に遅い古い PC (Pentium 3 1GHz、低速 PATA ディスク) 上の Microsoft Virtual Server で実行されている FreeBSD 仮想マシンで Nagios を実行しています。仮想マシンには 128MB の RAM しかなく、パフォーマンスはひどいです。

ただし、負荷平均は約 0.2 で、42 台のホストで 158 回のチェックが実行されています。

答え3

256MB の RAM を搭載した古い PIII で、約 230 の異なるサービスをアクティブに監視しています。同じマシンで、すべての受信ファックス用に MRTG と HylaFAX も実行しており、非常に快適に動作しています。

答え4

このハードウェアで大量の Nagios チェックを実行できるはずです。私たちは、約 70 個のチェックと Na​​giosgraph を使用した同様のセットアップを実行しています。主な違いは RAM の追加です (安価なので、ボックスを 2Gb に増やします)。

topまたはps -auxを実行してCPUが過負荷になっているかどうかを確認してください。おそらくそうではないでしょう。nagiosもチェックしてください。並列化ドキュメントインストールで、チェックをシリアル化せずに一度に実行しようとしているチェックが多すぎないか確認します。

関連情報