3ware:嘗試重建時驅動器上電重設

3ware:嘗試重建時驅動器上電重設

我有RAID bus controller: 3ware Inc 9550SX SATA-II RAID PCI-X四個磁碟,目前狀態如下:

tw_cli> /c1 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    REBUILD-PAUSED 0%      -       256K    931.303   OFF    OFF
u1    SPARE     OK             -       -       -       465.753   -      OFF

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u0     465.76 GB   976773168     WD-WCAS87320631
p1     OK               u0     465.76 GB   976773168     WD-WCAS87223554
p2     DEGRADED         u0     465.76 GB   976773168     WD-WCAS87159042
p3     OK               u1     465.76 GB   976773168     WD-WMAYP6812676
p4     NOT-PRESENT      -      -           -             -
p5     NOT-PRESENT      -      -           -             -
p6     NOT-PRESENT      -      -           -             -
p7     NOT-PRESENT      -      -           -             -

重建已啟用。有時它會啟動(狀態:REBUILDING),似乎執行一分鐘左右的操作,然後回落到REBUILD-PAUSED。永遠%RCmpl不會超過 0%。 Log ( /var/log/messages) 大約每五分鐘表示一次:

Dec  5 23:41:57 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x000B): Rebuild started:unit=0.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x003A): Drive power on reset detected:port=1.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x001A): Drive inserted:port=1.

我是這個硬體的新手,我繼承了機器和維護任務。它能說明什麼?我的麻煩有多大?我該怎麼辦?


新活動

Dec  6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current<4>3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec  6 00:25:42 somelinux kernel: : sense key=0x2
Dec  6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec  6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec  6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec  6 00:25:43 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x001E): Unit inoperable:unit=0.
Dec  6 00:28:02 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec  6 00:28:02 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:28:02 somelinux kernel: end_request: I/O error, dev sdc, sector 104927621
Dec  6 00:28:02 somelinux kernel: xfs_force_shutdown(dm-0,0x2) called from line 956 of file fs/xfs/xfs_log.c.  Return address = 0xc028860d

... 和 ...

tw_cli> /c1 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    INOPERABLE     -       -       256K    931.303   OFF    OFF
u1    SPARE     OK             -       -       -       465.753   -      OFF

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u0     465.76 GB   976773168     WD-WCAS87320631
p1     NOT-PRESENT      -      -           -             -
p2     OK               u0     465.76 GB   976773168     WD-WCAS87159042
p3     OK               u1     465.76 GB   976773168     WD-WMAYP6812676
p4     NOT-PRESENT      -      -           -             -
p5     NOT-PRESENT      -      -           -             -
p6     NOT-PRESENT      -      -           -             -
p7     NOT-PRESENT      -      -           -             -

看來p1的狀態真的很糟。


跟進

在變得無法操作之前,它總是工作幾分鐘/幾小時。這樣我就成功地備份了資料。我很幸運。我了解到我需要更加密切關注,否則冗餘儲存就沒有意義了。

刪除了舊數組。取出有故障的磁碟。定義了一個包含 3 個好成員的新陣列。重新建立檔案系統。已恢復備份。好結局。

答案1

振作起來。

你的 RAID 5 已失效:

u0    RAID-5    INOPERABLE     -       -       256K    931.303   OFF    OFF

這也是 SCSI / I/O 錯誤的原因。您的 RAID 5 不是 4 個磁碟;而是 4 個磁碟。它只有 3。

從您提供的文字來看,可能發生的情況如下:

  1. p2 已降級,您嘗試重建
  2. 在此期間,p1 不再被偵測到
  3. 由於 2 個磁碟機無法運作/偵測到而導致 RAID 5 故障

p2 現在顯示「OK」這一事實與 RAID 5 的狀態無關。

我希望這台伺服器有備份,因為你不太可能恢復它。我也不相信 tw_cli 支援強制數組在線。雖然以下內容無法幫助您從此失敗的數組中檢索數據,但我建議您執行以下操作:

  1. 更換故障/遺失的驅動器 (p1)
  2. 由於該卡不支援 RAID 6,我們無法使用它(建議用於大型磁碟機),因此我們必須使用 RAID 10。
  3. 從備份中恢復我希望你有

無論是誰將其設定為帶有備用磁碟的 RAID 5(也沒有正確設定),都不是最聰明的。

相關內容