LSI 9271 RAID 控制器上的資料傳輸暫停

LSI 9271 RAID 控制器上的資料傳輸暫停

我有一台配備 LSI 9271-8i RAID 控制器的伺服器,其中 4 個 4TB 組織為 RAID-5,1 個 8TB 組織為 JBOD(在控制器中稱為 RAID-0)。

當我複製大量資料(約 1 TB)時,我可以觀察到以下情況:對於前幾 GB,傳輸速度很好,但受到磁碟或網路速度的限制,通常約 100MB/s。但過了一會兒,傳輸完全暫停了大約。 20-30 秒,然後繼續下一個大約。 1 GB。我複製了許多文件,每個文件的大小在 10MB 到 500MB 之間,在暫停期間,robocopy 停留在一個文件上,並在暫停後繼續到下一個文件。這樣整體傳輸速率就會降到約 20MB/s。

在暫停期間,無法瀏覽驅動器的文件,在一種情況下,我收到一條控制器重置錯誤訊息(“控制器遇到致命錯誤並已重置”)。此外,在暫停期間也無法使用 CLI 工具存取控制器資料(暫停結束後將顯示結果)。

我在複製時可以觀察到這種行為

  • 千兆位元網路到 RAID-5 卷
  • 千兆位元網路到 JBOD 卷
  • JBOD 至 RAID-5
  • RAID-5 至 JBOD

在我看來,沒有什麼可疑之處:溫度(磁碟、BBU)在有效範圍內,控制器溫度似乎有點高,但也在規格範圍內。未在 RAID 上執行任何檢查,也未進行重建。

有什麼猜測嗎?

在更換控制器之前,我想嘗試優化熱狀況。這種行為聽起來像是可能的熱問題嗎?

我覺得奇怪的是,前 20-30 GB 工作正常,在此之前沒有發生暫停。如果我讓伺服器單獨放置一段時間並重試,那麼又可以很好地複製幾GB。對我來說唯一天真的解釋是控制器變得太熱。為什麼是控制器而不是磁碟? RAID-5磁碟為7200rpm,堆疊非常緊密,而JBOD單磁碟為5400rpm,周圍有大量空氣。如果兩者都表現出相同的過熱症狀那就很奇怪了。

答案1

我在使用 9260-16i 時也遇到了類似的問題。這不是溫度,因為我有兩個 92mm 風扇直接在 LSI 上吹。我以同樣的方式設置了第二台伺服器,效果很好。我發現有問題的伺服器設定為 64K 條帶大小,而工作伺服器設定為 256K 條帶大小。我備份了有問題的伺服器,並用 256K 條帶重建了驅動器組,然後用 64K 簇格式化了作業系統驅動器(因為我有多個 GB 的檔案)。我一直在毫不猶豫地移回數據,基本上以全千兆位元 NIC 速度運行,寫入速度超過每小時 350GB,不間斷、無暫停。

答案2

該問題可能與控制器刷新自己的 DRAM 快取有關。遇到此類問題的任何人都應該嘗試將控制器快取設定為writethrough而不是writeback

相關內容