重新安裝 Arch Linux 後隨機核心崩潰

重新安裝 Arch Linux 後隨機核心崩潰

我最近有兩個硬碟在RAID 5陣列中崩潰了,我沒有配置任何監控,所以我有一段時間沒有註意到其中一個已經崩潰了。所以我決定放棄一切,從頭開始。

所有硬體都與以前相同,只是我的陣列中的驅動器比以前少了,3 個更大的驅動器而不是8 個。會影響任何內容。

我已經重新安裝了 Arch Linux,並進行了適當的 mdadm 監控/通知和每日短期 SMART 測試(以及每週長期測試)。

然而,自從重新安裝 Arch Linux 以來,我經常看到隨機的核心恐慌,通常是在正常運行時間超過 48 小時之後。

我成功地拍下了內核恐慌的圖片:

內核恐慌圖片

現在從我在那裡看到的,它似乎與 mdadm 有關。

這是我的 mdadm 配置:

Personalities : [raid1] [raid6] [raid5] [raid4]
md0 : active raid1 sda1[0] sdb1[1]
      524224 blocks super 1.0 [2/2] [UU]

md1 : active raid1 sda3[0] sdb3[1]
      1950761024 blocks super 1.2 [2/2] [UU]
      bitmap: 5/15 pages [20KB], 65536KB chunk

md2 : active raid5 sde1[3] sdc1[0] sdd1[1]
      5796265984 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3] [UUU]
      bitmap: 0/22 pages [0KB], 65536KB chunk

unused devices: <none>

mkinitcpio.conf 中的相關行:

HOOKS="base udev autodetect modconf block mdadm_udev filesystems keyboard fsck"

我目前使用的是 Linux akatosh 4.1.6-1-ARCH #1 SMP PREEMPT Mon Aug 17 08:52:28 CEST 2015 x86_64 GNU/Linux。

我嘗試重新安裝 RAM,但我懷疑這是 RAM 問題,因為在我重新安裝 Arch Linux 之前沒有發生過這種情況。

我在研究中發現的大多數與 mdadm 相關的內核恐慌問題都是在啟動時發生的。任何人都知道可能出現什麼問題嗎?

編輯: 看起來這是 4.1.4 或 4.1.5 中引入的已知錯誤:https://bugzilla.redhat.com/show_bug.cgi?id=1255509

我將嘗試在測試中更新到 4.2.0,並用更多資訊更新這篇文章。

答案1

這是一個已知錯誤,由於以下原因引入:

edbe83ab4c27 md/raid5: allow the stripe_cache to grow and shrink.

更多資訊可以在這個官方錯誤報告中發現,“Bug 1255509 - BUG:無法處理 ffffffffffffffd8 處的內核分頁請求。”

解決方法是升級到4.2.0。

相關內容