LAMP サーバー監視スクリプトに含める内容

LAMP サーバー監視スクリプトに含める内容

当社には複数の LAMP サーバーがあり、それぞれがさまざまなシステム メトリックを報告するために作成した特別なスクリプトを実行しています。レポートは毎日実行され、その目的は、システム上の潜在的な問題をすばやく見つけられるようにすることです。

各 LAMP サーバーは RedHat Enterprise を実行し、それぞれ 40 ~ 50 個 (増加中) の公開 Web サイト (HTML、カスタム PHP、Drupal サイトの組み合わせ) をホストします。

現在スクリプトに含まれている内容は次のとおりです。

  1. サーバーの負荷とログインしているユーザー
  2. 過去10回のログインと時間
  3. ディスクの使用状況
  4. さまざまなログの最後の 10 行 (qmail、mysql、secure、apache エラー、パッケージ)
  5. 各アカウントのユーザー名、ポート、最終ログイン時間
  6. トップダンプ

レポートはすでに長いので、可能な限り簡潔にしたいと思っています。

このようなスクリプトに含めるべき他の重要なメトリックを見つけましたか? このリストから削除するものはありますか?

ありがとう、チーム。

答え1

環境が正常であることを確認するためにテストします。PHP が正しく実行されているか (何かをエコーする簡単な PHP スクリプトを作成し、それを wget して、期待どおりのものを受け取ったかどうかを確認)、データベース (接続してデータベースが表示できるかどうかを確認) などをテストします。

また、それらで SSL を実行している場合は、証明書の有効期限や予期しない変更などを確認してください。

答え2

次のような自動収集ツールの使用をお勧めします。サボテンさまざまな指標を収集してレポートするツールです。これにより、傾向を簡単に把握し、将来の計画を立てることができます。ジョン・オールスパウの優れた本があります。キャパシティプランニングの技術このトピックについて非常に詳細に説明しています。サーバーのメトリックを追跡する必要がある人には、これを強くお勧めします。

答え3

私のアドバイスは、これらのことを日常的に報告しないことです。情報が溢れかえり、問題が起こったときにそれを見落としてしまうのが人間の性です。

代わりに、これらの変数の 1 つが異常な場合にのみレポートします。おそらく、日中はもっと頻繁にレポートするでしょう。Cacti などの監視およびグラフ化システムを使用すると、このような変化を警告し、将来の参照用に履歴データを保持することができます。

答え4

常に監視する必要があります。当社では、Nagios を使用して各 Web サーバーを 1 分間に数回チェックし、サーバーがまだ動作しているかどうかを確認しています。また、データベースやその他考えられるあらゆるものも監視しています。時間が経つにつれて、停止が発生し、監視すべきだったことが発見されるでしょう。

監視のもう 1 つの側面は、ある種のグラフ化です。私たちは Munin を使用していますが、cacti や ganglia が一般的なソリューションです。グラフ化は、システムの傾向を把握するのに非常に役立ちます。

関連情報