ウェブサーバーのメモリリーク

Question

sar をランプアップし、1 分ごとに ps テーブルを出力します。詳細な回答を参照してください。ここ。

次回サーバーがダウンしたときは、sar -r追跡に役立ててくださいいつそれが起こった。今、ps-cronjobまたは私の出力を使用してくださいgithub 上の ps 用 perl ラッパーどのプロセスが原因であるかを突き止めます。

たとえば、サーバーが 12:00:00 から 13:00:00 の間にダウンしたとします。を使用しますsar -r -s 12:00:00 -e 13:00:00。これで、データのスパイクが確認できます。(もっと簡単なら、グラフを作成する Java ベースのユーティリティがありますが、通常は面倒な作業に見合うものではありません。) たとえば、12:15 にスパイク (または谷) が見られるとします。次に、列化された ps 出力を、たとえば 12:00 から 12:15 の間の時間範囲でスキャンし、pid と時間で並べ替えて、メモリ列を確認します。

awk '/^=== .* 12:00:/,/^=== .* 12:16:/' /var/log/sa/ps/today |
 sort -k 1n -k 16

(ソートオプションでは、時刻が 16 列目にあると想定していますが、そうでない場合もあります)。次に、awk を使用して出力を再度フィルターし、出力行間の違いを見つけることができます。

... | awk 'lastpid && lastpid==$1 && last != $0 { print} /^[0-9]/ { lastpid=$1;last=$0; }'

これはかなり粗雑なフィルターです。一部のプロセス (mysql、postgresql、snmpd など、コマンドラインが常に変化するプロセス) では、これはあまり役に立ちませんが、awk を微調整して原因を見つけられるようになることを期待します。

Answer 1