如何使用Nagios收集伺服器在不可達/宕機期間的效能資料?

如何使用Nagios收集伺服器在不可達/宕機期間的效能資料?

有時,由於伺服器效能不佳,服務和主機停止回應。我的意思是,如果由於某種原因(可能是大量並發服務訪問、伺服器上昂貴的備份執行或消耗大量伺服器資源的任何原因)伺服器性能嚴重下降,這可能導致伺服器無法建立任何“正常網路通訊” (不觸發為此類通訊定義的任何標準逾時)。

了解主機的效能資料(CPU、記憶體等)在該期間可用的情況下(主機沒有關閉,儘管其效能下降,仍然允許插件收集效能資料)對於系統管理員嘗試確定原因非常有用問題,或者至少,如果主機性能良好並且在主機/服務宕機時根本不會受到干擾。

如果遠端解決方案可以儲存(緩衝)效能數據,並在主機效能或網路中斷允許時傳送到中央 Nagios 伺服器,則可以使用遠端主動 (NRPE) 或遠端被動 (NSCA) 來解決此問題。我閱讀了這兩種解決方案的文檔,但找不到任何對此類緩衝機制的引用,也沒有找到 NSCA 無法到達 Nagios 伺服器時發生的情況。

知道如何解決資訊缺乏的問題嗎?對於法醫分析非常有用。

編輯:

我的問題是關於我可以使用哪些工具來調試效能問題或收集效能資料進行分析,而是關於即使在網路中斷期間如何收集(使用 Nagios)主機效能資料以進行事後分析(一種取證分析)。這個想法是將這些資料整合到 Nagios 繪圖器中,例如 pnp4nagios 和 NagiosGrapther。我知道我可以在每台主機上安裝像 Cacti 這樣的工具,並擁有一個效能資料收集冗餘,但我真的想避免這種情況,並嘗試使用一個工具來解決所有效能分析需求:Nagios

答案1

我不確定 Nagios,但如果您可以登入伺服器,您將收集以下詳細信息,這將幫助您縮小問題範圍。借助以下命令,您可以確定誰消耗了更多的 CPU 和記憶體。或是系統處於 OOM 狀態。

top -n 5 -b 
vmstat 1 50 
iostat -x 2 10
ps -aufx 
sar 1 50 
cat /proc/meminfo 
cat /proc/buddyinfo 

相關內容