最近、RAID 5 アレイで 2 台のハード ドライブがクラッシュしましたが、監視を設定していなかったため、しばらくの間、1 台がクラッシュしたことに気づきませんでした。そこで、すべてを破棄して最初からやり直すことにしました。
ハードウェアはすべて以前と同じですが、アレイ内のドライブが以前より少なくなり、8 台ではなく 3 台の大きなドライブになりました。また、レガシー ブート オプションを使用する代わりに、Arch Linux を UEFI としてインストールしましたが、それが何かに影響するかどうかはわかりません。
適切な mdadm 監視/通知と毎日の短い SMART テスト (および毎週の長いテスト) を備えた Arch Linux を再インストールしました。
しかし、Arch Linux を再インストールしてから、通常は 48 時間以上の稼働後にランダムにカーネル パニックが発生するようになりました。
カーネルパニックの写真を撮ることができました:
今私が見たところ、それは mdadm に関連しているようです。
私の mdadm 設定は次のとおりです:
Personalities : [raid1] [raid6] [raid5] [raid4]
md0 : active raid1 sda1[0] sdb1[1]
524224 blocks super 1.0 [2/2] [UU]
md1 : active raid1 sda3[0] sdb3[1]
1950761024 blocks super 1.2 [2/2] [UU]
bitmap: 5/15 pages [20KB], 65536KB chunk
md2 : active raid5 sde1[3] sdc1[0] sdd1[1]
5796265984 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3] [UUU]
bitmap: 0/22 pages [0KB], 65536KB chunk
unused devices: <none>
mkinitcpio.conf 内の関連行:
HOOKS="base udev autodetect modconf block mdadm_udev filesystems keyboard fsck"
現在、Linux akatosh 4.1.6-1-ARCH #1 SMP PREEMPT Mon Aug 17 08:52:28 CEST 2015 x86_64 GNU/Linux を使用しています。
RAM を装着し直してみましたが、Arch Linux を再インストールする前には発生していなかったため、RAM の問題ではないと思われます。
私の調査で判明した mdadm に関連するカーネル パニックの問題のほとんどは、起動時に発生していました。何が問題なのか、手がかりを持っている人はいますか?
編集: これは 4.1.4 または 4.1.5 で導入された既知のバグのようです:バグ報告
テストで 4.2.0 にアップデートしてみます。詳細情報を追加してこの投稿を更新します。
答え1
これは、以下によって発生した既知のバグです:
edbe83ab4c27 md/raid5: allow the stripe_cache to grow and shrink.
さらに詳しい情報はこの公式バグレポートで、「バグ 1255509 - バグ: ffffffffffffffd8 でカーネル ページング要求を処理できません。」が見つかりました。
解決策は 4.2.0 にアップグレードすることです。