預測系統故障

預測系統故障

有沒有辦法透過測量 CPU 使用率、記憶體使用率等系統參數來預測伺服器故障?

失敗可能是由於不同的原因造成的。

我的問題措詞不好。因此這次編輯

編輯

我們可以使用某種機器學習來從收集的資料(系統參數)中預測伺服器是否會宕機?

我們會記錄伺服器處於活動狀態以及發生故障時的狀況

答案1

為自己購買一台伺服器和元件,定期進行自我測試並報告「故障前」警告。伺服器執行此操作的能力真正體現了頂級廠商(HP、IBM、Dell)和次要廠商之間的差異 - 當然它的成本更高,但對於某些人來說這是值得的。

例如,HP DL380 Gen9 伺服器在設備及其組件周圍實際上有數百個感測器,這些感測器結合起來在可能的情況下提供這些「故障前」警告。這確實可以正常工作,而且他們的支援合約(同樣不便宜)允許根據此資訊交換硬體 - 您可以交換磁碟/控制器/記憶體/CPU/PSU 等。它的失敗會影響你。

總而言之,如果可用性對您來說很關鍵,那麼購買可以執行此操作的伺服器並將其配置為在發生時報告此資訊。

答案2

不,至少不是以任何一般方式,因為不同的系統在您可能檢查的每個方面都有很大的不同。舉個例子,在我的 Web 伺服器上,如果它們在很短的時間內達到 100% CPU,我會擔心,但在計算節點上,沒有 100% CPU 使用率可能表明需要擔心。

您可以嘗試安裝一些監控系統(例如Nagios/Icinga)並提出在您的特定用例中有意義的閾值參數,但是您必須仔細思考要檢查哪些參數以及為您的特定情況設定哪些閾值情況。

相關內容