FreeNAS: ZFS アレイが複数のドライブを「削除」

FreeNAS: ZFS アレイが複数のドライブを「削除」

ちょっと心配な状況です。何が起こっているのか理解するのを手伝ってくれる人がいれば幸いです。

背景

私は約 5 年前に、6x 8TB ディスク RAID-Z2 アレイから始めて、バックアップとストレージ用に FreeNAS を実行する ZFS サーバーを構築しました。これは今日まで正常に動作し続けています。このデバイスには、CIFS 共有を提供する以外の追加の役割はありません。

サーバーはほとんどの時間をオフラインで過ごします (大量の電力を消費するため)。バックアップ、ファイルのコピー、ボリュームのスクラブなどを行うために、時々電源を入れます。

数年前、私はこのセットアップを (計画どおり) 6 台のディスクで拡張し、これも RAID Z2 にすることにしました。最初のものと同じハードウェアに接続されたこのアレイは、現在、いくつかのディスクを (一度に 1 台ずつ) 「削除」したので、交換しました。これらのディスクはすべて表面スキャンに合格したので、ZFS との何らかの非互換性があると考えました。

削除されたドライブ

先週、再び電源を入れたところ、突然、ドライブ 2 台が取り外されることになりました。これはボリュームを失うことなく失われる可能性がある最大数なので、すぐに新しいドライブを 2 台注文し、Western Digital Data Lifeguard で完全な読み取りテスト (両方とも合格) を行い、古いドライブと交換しました。アレイは再同期され、再び「正常」と表示されました。取り外したドライブも DLG でテストしたところ、驚いたことに、これも合格しました。再同期が完了した後、このボリュームへのバックアップを実行しました。

問題

6 台のドライブのうち 4 台が取り外されたため、ボリュームが劣化ではなく使用不可になっていることがわかりました。これには、新品のドライブ 2 台と、約 5 日前にも一時的に問題を引き起こしたが、自動的に回復したと思われる他の 2 台が含まれます。取り外された 4 台目のドライブは、つい先ほどまで問題なく動作していたようです。

私の質問は次のとおりです:これは何が原因だったのでしょうか?(そしてもちろん、どうすればボリュームを復元し、最終的にこれが再び発生しないようにできるでしょうか?)

いくつかの方法を調査中ですが、これに関するご意見をいただければ幸いです :)

力: これは強制的な状況で発生したため、電源の問題ではないかと考えています。電源ユニットは Seasonic G シリーズ G-550W PCGH エディションで、これで十分なはずです (HDD は、記憶が確かなら、段階的に電源が投入されています)。また、両方のアレイが通常は同時にスクラブされ、現在使用不可となっているボリューム上の 2 つのドライブの再シルバー化が問題なく完了したことも、これに反しています。また、数日前に最初のアレイにいくつかの大きなファイルをコピーしましたが、これも問題はありませんでした。6x8TB アレイの 1 つが強制的な状況でも正常な状態を維持できるのであれば、同じ状況でもう一方のアレイが正常な状態を維持できない理由は何でしょうか。これらが同時にストレスを受けたわけではなく、以前にも両方のボリュームに問題がなかった期間が長かったことに注意してください。

温度: 最も問題の多い 2 つのドライブは、メインのドライブ ベイの後ろにある 2 番目のドライブ ベイにあります。これらのドライブ ベイに到達する空気の温度は高くなりますが、2 番目のドライブ ベイの後ろにファンを追加して、そこから空気を積極的に吸い出しています (空気は密閉された仕切りによってこのベイの周囲に集められます)。そのため、空気の流れはより高くなるはずです。

残念ながら、まだ HDD 温度監視の設定に取りかかっていません (私が知らないデフォルトの機能がある場合を除く)。CPU 温度は監視されていますが、もちろんこの点に関しては役に立ちません。問題のあるディスクもレポートの概要から消えてしまったため、現在は I/O 履歴を見ることすらできません。

コントローラ: 2 番目のアレイは、Delock PCI Express SATA コントローラに接続されています。このデバイスは、データ スループットに対応できないのではないかと考えています。ただし、この場合、これをどのようにテストできるかはわかりません。また、4 つのドライブが取り外され、同じアレイ内の他の 2 つが現在まで正常に動作し続けている (「オンライン」として報告されている) 理由もわかりません。

SATAケーブル: これらはまだテストする必要があるため、未定です。ケーブルはきちんと収納されており、強く曲がっていませんが、時間の経過とともに故障することは当然あります。ただし、ケーブルが原因で同じ日に同じアレイ内の 4 つのドライブが使用できなくなる可能性を考えると、これは疑わしい原因としては非常に低い位置にあります。

ハードウェア:

  • メインボード: MSI C236M ワークステーション (6 つの SATA ポート付き、アレイ #1 で使用中)
  • CPU: インテル Xeon E3-1275 v5
  • メモリ: キングストン KVR21E15D8K2 x2 (ECC)
  • 電源ユニット: Seasonic Gシリーズ G-550W PCGHエディション
  • 2番目のコントローラー: Delock PCI Express x2 カード -> 10 x 内部 SATA III - LP
  • 配列 #1(RAID-Z2 で 6x 8TB、5 年間安定して動作)
    • WD80EFZX x3
    • ST8000VN0002×2台
    • ST8000DM002 x1
  • 配列 #2(RAID-Z2 で 6x 8TB):
    • WD80EFAX (問題なし)
    • ST8000VN0022 (以前に一度取り外しましたが、DLGに合格し、現在は正常に動作しています)
    • WD80EFAX x2 (既存のドライブも削除済み)
    • WD80EFZZ x2 (新しい交換用ドライブ、現在は削除済み)
    • ST8000VN0022 x2 (数日前に削除され、WD80EFZZ x2 に置き換えられました)

関連情報