
我有一台伺服器透過傳入的流量執行多項任務。
最近伺服器有點卡。當系統阻塞時,它會重新啟動 - 這給我留下了關於阻塞病理學的有意義的信息(這絕對不是暴力崩潰)。
根據您的經驗,哪種工具可以幫助您保留有關係統扼流圈的有意義的數據。
這可以是記憶體消耗、「ps」、「top」或任何其他參數。
請注意,一個僅每隔一段時間輸出幾個冗長命令(ps -a)的腳本可能會使用大量存儲,並且很難分析。
答案1
安裝 SAR,預設每 10 分鐘提供一次資料快照,但您可以使用 cron 作業變更資訊速率。
它將提供大量有用的數據,例如記憶體、負載 CPU 使用情況和磁碟 I/O 統計資訊。
答案2
如果您需要對系統最常見參數進行歷史分析,我會推薦MUNIN,它透過Web提供最常見系統資源的圖表,您可以不斷監控以查看哪個進程/哪個服務阻塞了資源以及哪個資源。
之後我建議 tail -f 系統日誌文件,這就是導致此問題的原因。
答案3
有時我覺得SAR有點不夠。我遇到過這樣的情況,您需要全面了解系統中正在發生的情況。像 top、ps、vmstat、netstat、iostat、iotop 這樣的指令就派上用場了。一般來說,我將這些命令記錄輸出到文件中。現在,如果空間對您來說是一種限制,那麼有一項服務稱為SeaLion
它執行上述所有命令並將其儲存到雲端。您可以從瀏覽器存取這些資料。
另外,我想提一下其他服務,例如Nagios
、Munin
、New Relic
,Server density
它們也會從您的計算機收集統計信息,這在調試問題時可能會派上用場。