「何が起こるか？」サーバーパフォーマンスモニター

Question 1

Zabbixとは対照的に -マクスウェル- 尊敬すべきナギオス（そして比較的最近のフォークである、アイシング）。このフレームワークは 10 年以上前から存在しており、非常に安定しています。唯一の欠点はインストールと構成で、Zabbix のような商用企業がサポートするシステムよりもはるかに時間がかかります (特に初めての場合)。

もちろん、どちらもエコシステムの中で役割を果たしているので、両方試してみることをお勧めします。ただし、私のコメントで述べたように、より詳細なタイプの監視を行う予定であればあるほど、実際に独自のプラグイン/スクリプトを作成する場合でも、他の人の作業を検索/ダウンロード/変更する場合でも、より多くの労力を費やすことを覚悟しておく必要があります。

幸運を！

Answer

Zabbixとは対照的に -マクスウェル- 尊敬すべきナギオス（そして比較的最近のフォークである、アイシング）。このフレームワークは 10 年以上前から存在しており、非常に安定しています。唯一の欠点はインストールと構成で、Zabbix のような商用企業がサポートするシステムよりもはるかに時間がかかります (特に初めての場合)。

もちろん、どちらもエコシステムの中で役割を果たしているので、両方試してみることをお勧めします。ただし、私のコメントで述べたように、より詳細なタイプの監視を行う予定であればあるほど、実際に独自のプラグイン/スクリプトを作成する場合でも、他の人の作業を検索/ダウンロード/変更する場合でも、より多くの労力を費やすことを覚悟しておく必要があります。

幸運を！

Question 2

そのようなソフトウェアはたくさんありますが、注意すべき点は、別のホストで実行する必要があるということです。そうしないと、何か問題が発生した場合に通知されないリスクが高くなります。

たとえば、私たちは nagios (すべての監視とアラートを処理します。つまり、オペレーターが何かを確認する必要がある場合に誰かを起こす役割を担っています) と cacti (アラートも実行できますが、ネットワークトラフィックからシステム負荷、電子メールスパム統計に至るまで、さまざまなメトリックを収集して集計するために使用しています) を組み合わせて使用しています。

アラート (nagios、cacti、zabbix などから) を受け取ったとき、パフォーマンスデータ (cacti、zabbix、その他) を確認すると、問題がどこにあるかを診断するのに役立ちます。

あなたが説明している通常の LAMP スタックでは、最も一般的な 2 つの問題状況 (少なくとも私の経験では) は、HTTP サーバーまたは SQL サーバーがまったく応答しないか、妥当な時間内に応答しない (Nagios プローブで確認します) か、システムの負荷平均が異常に高くなることです。

これら 2 つのチェックで、おそらく問題の 95% を検出できますが、他にも確認すべき点はたくさんあります。例:

Apacheが設定したプロセス/スレッドの最大数で常に動作している場合、サーバーが負荷に対応できていないことを意味します。
システムは「正常」に動作していますが、RAID 内のドライブが故障しています (この種の問題が何ヶ月も、または少なくとも次のディスク障害が発生するまで気付かれないことがよくあることは、ご存じないかもしれません ;)

市販されているほぼすべての製品は、あらゆるものを監視/グラフ化することができ、付属の計測機器や広く普及している SNMP に加えて、単純なシェルスクリプト、短いプログラムなどを使用して拡張することもできます。

Answer

そのようなソフトウェアはたくさんありますが、注意すべき点は、別のホストで実行する必要があるということです。そうしないと、何か問題が発生した場合に通知されないリスクが高くなります。

たとえば、私たちは nagios (すべての監視とアラートを処理します。つまり、オペレーターが何かを確認する必要がある場合に誰かを起こす役割を担っています) と cacti (アラートも実行できますが、ネットワークトラフィックからシステム負荷、電子メールスパム統計に至るまで、さまざまなメトリックを収集して集計するために使用しています) を組み合わせて使用しています。

アラート (nagios、cacti、zabbix などから) を受け取ったとき、パフォーマンスデータ (cacti、zabbix、その他) を確認すると、問題がどこにあるかを診断するのに役立ちます。

あなたが説明している通常の LAMP スタックでは、最も一般的な 2 つの問題状況 (少なくとも私の経験では) は、HTTP サーバーまたは SQL サーバーがまったく応答しないか、妥当な時間内に応答しない (Nagios プローブで確認します) か、システムの負荷平均が異常に高くなることです。

これら 2 つのチェックで、おそらく問題の 95% を検出できますが、他にも確認すべき点はたくさんあります。例:

Apacheが設定したプロセス/スレッドの最大数で常に動作している場合、サーバーが負荷に対応できていないことを意味します。
システムは「正常」に動作していますが、RAID 内のドライブが故障しています (この種の問題が何ヶ月も、または少なくとも次のディスク障害が発生するまで気付かれないことがよくあることは、ご存じないかもしれません ;)

市販されているほぼすべての製品は、あらゆるものを監視/グラフ化することができ、付属の計測機器や広く普及している SNMP に加えて、単純なシェルスクリプト、短いプログラムなどを使用して拡張することもできます。

Question 3

ザビックス監視ソリューションは、必要なものをすべて監視し、それに応じてアクションをトリガーできます。アクションは、たとえば、ログを処理し、必要に応じて結果を返すスクリプトを実行することです。また、1 つ以上の条件が満たされたときにアクションをトリガーすることもできます (たとえば、ログ解析スクリプトの出力にエラーが表示され、CPU 負荷が 40% を超えているなど)。

Answer

ザビックス監視ソリューションは、必要なものをすべて監視し、それに応じてアクションをトリガーできます。アクションは、たとえば、ログを処理し、必要に応じて結果を返すスクリプトを実行することです。また、1 つ以上の条件が満たされたときにアクションをトリガーすることもできます (たとえば、ログ解析スクリプトの出力にエラーが表示され、CPU 負荷が 40% を超えているなど)。

Question 4

Nagiosのインストール

Nagios は、クライアント、エンドユーザー、または管理者よりも先にネットワークの問題を通知するように設計されたホストおよびサービスモニターです。Linux オペレーティングシステムで実行するように設計されましたが、ほとんどのバージョンでも問題なく動作します。監視デーモンは、外部プラグインを使用して、指定されたホストとサービスに対して断続的なチェックを実行し、ステータス情報を Nagios に返します。問題が発生すると、デーモンはさまざまな方法 (電子メール、インスタントメッセージ、SMS など) で管理者の連絡先に通知を送信できます。サーバーに Nagios をインストールすると、サーバーの信頼性が向上します。

Nagios には多くの機能があり、非常に強力な監視ツールとなっています。主な機能の一部を次に示します。ネットワークサービス (SMTP、POP3、HTTP、NNTP、PING など) の監視ホストリソース (プロセッサ負荷、ディスクとメモリの使用状況、実行中のプロセス、ログファイルなど) の監視温度などの環境要因の監視計画停止期間中にホストとサービスの通知を抑制するためのスケジュールされたダウンタイムユーザーが独自のホストとサービスのチェックを簡単に開発できるシンプルなプラグイン設計ネットワークホスト階層を定義する機能。これにより、ダウンしているホストと到達できないホストを検出して区別できます。冗長および分散監視サーバーの実装のサポート Web インターフェイスを介して問題を確認する機能サービスまたはホストの問題が発生し、解決された場合の連絡先通知 (電子メール、ポケベル、またはその他のユーザー定義の方法を使用) ホストとサービスの通知を別の連絡先グループにエスカレーションするオプションサービスまたはホストのイベント中に実行されるイベントハンドラーを定義して、問題をプロアクティブに解決する機能イベントハンドラー、Web インターフェイス、およびサードパーティアプリケーションを使用して、監視と通知の動作をオンザフライで変更できる外部コマンドインターフェイス複数のホスト間でのホストとサービスのステータスの保持プログラムの再起動

Answer

Nagiosのインストール

Nagios は、クライアント、エンドユーザー、または管理者よりも先にネットワークの問題を通知するように設計されたホストおよびサービスモニターです。Linux オペレーティングシステムで実行するように設計されましたが、ほとんどのバージョンでも問題なく動作します。監視デーモンは、外部プラグインを使用して、指定されたホストとサービスに対して断続的なチェックを実行し、ステータス情報を Nagios に返します。問題が発生すると、デーモンはさまざまな方法 (電子メール、インスタントメッセージ、SMS など) で管理者の連絡先に通知を送信できます。サーバーに Nagios をインストールすると、サーバーの信頼性が向上します。

Nagios には多くの機能があり、非常に強力な監視ツールとなっています。主な機能の一部を次に示します。ネットワークサービス (SMTP、POP3、HTTP、NNTP、PING など) の監視ホストリソース (プロセッサ負荷、ディスクとメモリの使用状況、実行中のプロセス、ログファイルなど) の監視温度などの環境要因の監視計画停止期間中にホストとサービスの通知を抑制するためのスケジュールされたダウンタイムユーザーが独自のホストとサービスのチェックを簡単に開発できるシンプルなプラグイン設計ネットワークホスト階層を定義する機能。これにより、ダウンしているホストと到達できないホストを検出して区別できます。冗長および分散監視サーバーの実装のサポート Web インターフェイスを介して問題を確認する機能サービスまたはホストの問題が発生し、解決された場合の連絡先通知 (電子メール、ポケベル、またはその他のユーザー定義の方法を使用) ホストとサービスの通知を別の連絡先グループにエスカレーションするオプションサービスまたはホストのイベント中に実行されるイベントハンドラーを定義して、問題をプロアクティブに解決する機能イベントハンドラー、Web インターフェイス、およびサードパーティアプリケーションを使用して、監視と通知の動作をオンザフライで変更できる外部コマンドインターフェイス複数のホスト間でのホストとサービスのステータスの保持プログラムの再起動

「何が起こるか？」サーバーパフォーマンスモニター

答え1

答え2

答え3

答え4

関連情報