LSI 9271 RAID コントローラでのデータ転送の一時停止

LSI 9271 RAID コントローラでのデータ転送の一時停止

私のサーバーには LSI 9271-8i RAID コントローラーが搭載されており、4 x 4TB が RAID-5 として構成され、1 x 8TB が JBOD (コントローラーでは RAID-0 と呼ばれます) として構成されています。

より大容量のデータ (~1 TB) をコピーする場合、次のことがわかります。最初の数ギガバイトは転送速度は良好で、ディスクまたはネットワーク速度によって制限され、通常は ~100MB/s です。しかし、しばらくすると、転送はおよそ 20 ~ 30 秒間完全に停止し、その後、次の約 1 GB で続行されます。10 MB から 500 MB のファイルを多数コピーすると、一時停止中は robocopy は 1 つのファイルに留まり、一時停止後に次のファイルに進みます。このように、全体の転送速度は ~20 MB/s に低下します。

一時停止中は、ドライブのファイルを参照することはできず、あるケースでは、コントローラー リセット エラー メッセージ (「コントローラーに致命的なエラーが発生したため、リセットされました」) が表示されました。また、一時停止中は、CLI ツールを使用してコントローラー データにアクセスすることもできません (一時停止が終了すると、結果が表示されます)。

コピーするときにこの動作を観察できました

  • ギガビットネットワークからRAID-5ボリュームへ
  • ギガビットネットワークからJBODボリュームへ
  • JBODからRAID-5へ
  • RAID-5からJBODへ

疑わしいことは何も起きていません。温度 (ディスク、BBU) は有効な範囲内で、コントローラーの温度は少し高いようですが、仕様範囲内です。RAID でチェックは実行されておらず、再構築も進行中ではありません。

何か推測できますか?

コントローラーを交換する前に、熱状況を最適化してみたいと思います。この動作は熱の問題である可能性はありますか?

最初の 20 ~ 30 GB は正常に動作していて、それ以前に一時停止が発生していないのは奇妙だと思います。しばらくサーバーをそのままにして再試行すると、再び数 GB が正常にコピーされます。私にとっての唯一の素朴な説明は、コントローラーが熱くなりすぎたということです。なぜコントローラーでディスクではないのでしょうか。RAID-5 ディスクは 7200rpm で非常に密に積み重ねられていますが、JBOD シングル ディスクは 5400rpm で周囲に空気がたくさんあります。両方で同じ過熱症状が見られるのは奇妙です。

答え1

9260-16i でも同様の問題が発生しました。デュアル 92mm ファンが LSI に直接風を送っているので、温度の問題ではありませんでした。2 台目のサーバーを同じ方法でセットアップしましたが、問題ありませんでした。問題のあるサーバーは 64K のストリップ サイズで設定されていたのに対し、動作中のサーバーは 256K のストライプ サイズだったことが分かりました。問題のあるサーバーをバックアップし、256K のストライプでドライブ グループを再構築してから、OS ドライブを 64K クラスターでフォーマットしました (数 GB のファイルがあるため)。データを元に戻しましたが、基本的にギガビット NIC のフル スピードで書き込みを実行しており、1 時間あたり 350 GB を超えるデータがノンストップで停止することなく転送されています。

答え2

この問題は、コントローラが自身のDRAMキャッシュをフラッシュすることに関連している可能性があります。このような問題が発生している場合は、コントローラのキャッシュをwritethrough次のように設定してみてください。writeback

関連情報