Web 伺服器上的記憶體洩漏

Question

每分鐘啟動 sar 並輸出 ps 表。看我的詳細回答這裡。

下次伺服器崩潰時，用來sar -r幫助追蹤什麼時候它發生了。現在使用 ps-cronjob 或我的輸出github 上 ps 的 Perl 包裝器，找出哪個進程可能是罪魁禍首。

假設伺服器在 12:00:00 到 13:00:00 之間發生了爆炸。使用sar -r -s 12:00:00 -e 13:00:00。由此您應該會看到資料出現峰值。（如果更容易的話，有一個基於 java 的實用程式可以進行繪圖，但通常不值得這麼麻煩。）假設您在 12:15 看到一個峰值（或一個波谷）。現在掃描 ps 列輸出的時間範圍（例如 12:00 到 12:15），按 pid 排序，然後按時間排序，然後查看記憶體列：

awk '/^=== .* 12:00:/,/^=== .* 12:16:/' /var/log/sa/ps/today |
 sort -k 1n -k 16

（排序選項假定時間位於第 16 列，但情況可能是也可能不是）。現在您可以再次透過 awk 過濾該輸出以查找輸出行之間的差異：

... | awk 'lastpid && lastpid==$1 && last != $0 { print} /^[0-9]/ { lastpid=$1;last=$0; }'

這是一個相當粗糙的過濾器。對於某些進程（其命令列一直在變化，例如 mysql、postgresql 和 snmpd），這不會很有幫助，但希望您可以調整 awk 來幫助您找到罪魁禍首。

Answer 1