ubuntu 14.04.1 伺服器空閒負載平均 1.00

ubuntu 14.04.1 伺服器空閒負載平均 1.00

在這裡撓我的頭。希望有人能幫我解決問題。

我有一台 Dell PowerEdge SC1435 伺服器,它已經在以前版本的 ubuntu 上運行了一段時間。 (我相信它是 13.10 伺服器 x64)

我最近重新格式化了驅動器(SSD)並安裝了 ubuntu 伺服器 14.04.1 x64。

安裝過程中一切似乎都很好,但機器在核心輸出結束時首次啟動時掛起,就在我期望螢幕清除並出現登入提示之前。我看到的內核輸出末尾沒有明顯的錯誤。 (有一條關於「不使用不可靠的CPU熱感測器」的訊息,但無論是否啟動,該訊息似乎都存在)

我給了它足足 5 分鐘,然後強制重啟。令我驚訝的是,它在 BIOS 發布後大約 1-2 秒內啟動到登入提示字元。我再次重新啟動,它似乎在之前掛起的地方暫停了幾秒鐘,但繼續進入登入畫面。再次重啟,速度又快了。所以在這一點上,我認為這只是那些隨機的一次性故障之一,我永遠無法解釋,所以我繼續前進。

我安裝了一些軟體包(在其他硬體上的相同作業系統版本上安裝了完全相同的軟體包),進行了 apt Upgrade 和 dist-upgrade 然後重新啟動。它似乎再次掛起,所以我開車到資料中心並連接控制台,結果卻出現空白畫面。再次強制重啟。 (也設定了 ipmi 進行遠端重新啟動並擺脫了 grub recordfail,因此它不會等待我按 Enter 鍵!)

昨晚已經很晚了。我回到家,重新啟動了幾次,沒有出現任何問題,然後就去睡覺了。今天我再次重新啟動來檢查它,但它又在某個地方崩潰了。我遠端強制重新啟動它。

此時我開始進一步挖掘,並立即註意到一些非常奇怪的事情。

top - 14:18:35 up 8 min,  1 user,  load average: 1.00, 0.85, 0.45
Tasks: 148 total,   1 running, 147 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0.1 us,  0.3 sy,  0.0 ni, 99.6 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem:  33013620 total,   338928 used, 32674692 free,     9740 buffers
KiB Swap:  3906556 total,        0 used,  3906556 free.    47780 cached Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
    1 root      20   0   33508   2772   1404 S   0.0  0.0   0:03.82 init
    2 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kthreadd
    3 root      20   0       0      0      0 S   0.0  0.0   0:00.00 ksoftirqd/0
    5 root       0 -20       0      0      0 S   0.0  0.0   0:00.00 kworker/0:0H
    6 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kworker/u16:0
    8 root      20   0       0      0      0 S   0.0  0.0   0:00.24 rcu_sched
    9 root      20   0       0      0      0 S   0.0  0.0   0:00.02 rcuos/0
   10 root      20   0       0      0      0 S   0.0  0.0   0:00.00 rcuos/1
   11 root      20   0       0      0      0 S   0.0  0.0   0:00.00 rcuos/2

該伺服器完全未使用且空閒,但其 1 分鐘平均負載恰好為 1.00?當我觀察其他值時 - 5 分鐘和 15 分鐘似乎也趨向 1.00,因此我假設它們在某個時刻都會達到 1.00。 (「1 Running」是頂層進程)

我以前從未遇到過這種情況,因為我不知道是什麼導致啟動崩潰,所以我現在假設兩者可能相關。

我想做的是確定(並希望消除)導致錯誤平均負載和崩潰問題的原因。

到目前為止,我無法確定哪個進程可能正在等待某種資源來產生該平均負載。

如果有人能幫助我嘗試追蹤它,我將非常感激。

頂部顯示所有進程幾乎總是處於休眠狀態。有些偶爾會出現在頂部,但我認為這很正常。 CPU 使用率大多顯示 100% IDLE,偶爾會下降到 99% 左右。

nmon 沒有向我展示太多。一切看起來都是閒置的。

iotop 幾乎沒有顯示任何流量。 (同樣,非常偶爾的磁碟存取)

中斷頻率看起來很低。從我所看到的來看,速度遠低於 100/秒。

我看到很多谷歌討論都表明了這一點:

echo 100 > /sys/module/ipmi_si/parameters/kipmid_max_busy_us

..沒有效果。

伺服器中的 RAM 是 ECC 且測試通過。

伺服器安裝是「最小化」(F4 選項),在安裝過程中勾選了 OpenSSH 伺服器。之後安裝了一些軟體包,包括vim、bcache-tools、bridge-utils、qemu、software-properties-common、open-iscsi、qemu-kvm、cpu-checker、socat、ntp和nodejs。 (想想就這個吧)

我嘗試停用並刪除 bcache 核心模組。沒有效果。停止了 iSCSI 服務..沒有效果。 (儘管該伺服器上還沒有任何配置)

在這變得太長之前我會把它留在那裡。如果有人能幫助我嘗試解決這個問題,我將非常感激。

乾杯,

詹姆士

相關內容