
トラフィックが流入する中で複数のタスクを実行するサーバーがあります。
最近、サーバーがカクつくようになりました。システムが停止すると、再起動します。これでは停止の原因に関する有意義な情報はほとんど得られません (これは決して激しいクラッシュではありません)。
システム停止に関する有意義なデータを保存するのに役立ったツールは何ですか。
これはメモリ消費量、「ps」、「top」、またはその他のパラメータである可能性があります。
ただし、単にいくつかの長いコマンド (ps -a) を随時出力するだけのスクリプトは、大量のストレージを使用する可能性があり、分析が困難になる可能性があります。
答え1
SAR をインストールすると、デフォルトで 10 分ごとにデータのスナップショットが提供されますが、cron ジョブを使用して情報のレートを変更できます。
メモリ、負荷、CPU 使用率、ディスク I/O 統計など、多くの有用なデータが提供されます。
答え2
システムの最も一般的なパラメータの履歴分析が必要な場合は、MUNIN をお勧めします。MUNIN は、Web 経由で最も一般的なシステム リソースのグラフを提供し、どのプロセス/サービスがリソースを圧迫しているか、どのリソースが圧迫しているかを継続的に監視できます。
その後、システム ログ ファイルを tail -f で調べることをお勧めします。これがこの問題の原因です。
答え3
SAR では不十分だと感じることがあります。システムで何が起こっているかを完全に把握する必要がある場合があります。その場合、top、ps、vmstat、netstat、iostat、iotop などのコマンドが便利です。通常、これらのコマンドの出力をファイルに記録します。スペースが限られている場合は、というサービスがあります。SeaLion
上記のすべてのコマンドを実行し、クラウドに保存します。これらのデータにはブラウザからアクセスできます。
Nagios
また、、、Munin
などの他のサービスについても触れておきます。New Relic
これらのサービスServer density
もマシンから統計情報を収集し、問題のデバッグ時に役立つ可能性があります。