RAID-0 SSD 故障:I/O 錯誤,err_mask=0x4

RAID-0 SSD 故障:I/O 錯誤,err_mask=0x4

設定

我有一個華碩 UX301LA-DE022H。它包含兩個隨身碟固態硬碟 SD6SP1M-256G-1102,每個 256G,配置為 Intel 韌體 RAID 0(又稱假 RAID)。

發生了什麼事

我平常用的是Windows。離開了幾分鐘,當我回來時,電腦會顯示黑屏,並且只能啟動到 UEFI 配置螢幕,沒有啟動選項。

所以電腦沒有遭受任何震動/物理損壞。此時我懷疑 Windows 更新混亂或軟體/實體磁碟機故障。

簡而言之

其中一塊SSD不再被偵測到,導致整個RAID 0磁碟失效。最相關的錯誤dmesgfailed to IDENTIFY (I/O error, err_mask=0x4)

問題是什麼?是體力衰竭嗎?最有可能發生故障的組件是什麼?我很想知道在這種情況下哪個電子元件故障。

資料恢復公司如何恢復資料?他們會更換 SSD 控制器嗎?他們會尋找死電阻嗎?


尋找以下所有詳細資訊:

調查

  • 電腦需要 120 秒才能顯示 UEFI 設定畫面
  • UEFI 設定畫面中沒有可用的啟動選項
  • 一個 SSD 可以正常工作(但它只是 RAID 0 的一半!):

    • 在 Linux USB 記憶棒上啟動時會偵測到它

      > dmesg|grep ata2
      [    3.590698] ata2: SATA max UDMA/133 abar m2048@0xf7d22000 port 0xf7d22180 irq 43
      [   51.454606] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
      [   51.455389] ata2.00: ACPI cmd ef/10:09:00:00:00:b0 (SET FEATURES) succeeded
      [   51.456504] ata2.00: ATA-8: SanDisk SD6SP1M256G1102, X231302, max UDMA/133
      [   51.456510] ata2.00: 500118192 sectors, multi 1: LBA48 NCQ (depth 31/32), AA
      [   51.457752] ata2.00: ACPI cmd ef/10:09:00:00:00:b0 (SET FEATURES) succeeded
      [   51.459283] ata2.00: configured for UDMA/133
      
    • 當SSD單獨存在時,PC立即啟動,沒有任何問題

    • 當SSD單獨存在時,UEFI配置可以正確偵測到它

SSD 工作 UEFI

  • 一個 SSD 無法正常運作:

    • 在 Linux USB 記憶棒上啟動時未偵測到它

      > dmesg|grep ata1
      [    3.590697] ata1: SATA max UDMA/133 abar m2048@0xf7d22000 port 0xf7d22100 irq 43
      [    3.904513] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
      [    9.013343] ata1.00: qc timeout (cmd 0xec)
      [    9.013356] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
      [    9.327983] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
      [   19.466671] ata1.00: qc timeout (cmd 0xec)
      [   19.466683] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
      [   19.466690] ata1: limiting SATA link speed to 3.0 Gbps
      [   19.781305] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
      [   50.826666] ata1.00: qc timeout (cmd 0xec)
      [   50.826678] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
      [   51.141298] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
      
    • 當SSD單獨使用時,PC啟動緩慢

    • 當SSD單獨存在時,UEFI配置錯誤地偵測到它

SSD 不工作-uefi

  • 兩個 SATA 連接埠都正常:我在每個連接埠上嘗試了功能 SSD,它被正確且快速地檢測到。
  • 當兩個 SSD 都存在時,UEFI 設定畫面會顯示兩個磁碟。最後一點讓我感到困惑:似乎 PC 能夠知道有兩個 SSD,但在嘗試訪問其中一個時超時。

雙SSD

  • 兩個 SSD 均未出現視覺損壞

固態硬碟-1 固態硬碟-2

附加資訊(僅顯示相關部分):

> blkid
/dev/sdb: TYPE="isw_raid_member"

> lsscsi -L
[1:0:0:0]    disk    ATA      SanDisk SD6SP1M2 302   /dev/sdb
  device_blocked=0
  iocounterbits=32
  iodone_cnt=0x6d
  ioerr_cnt=0x2
  iorequest_cnt=0x6d
  queue_depth=31
  queue_type=simple
  scsi_level=6
  state=running
  timeout=30
  type=0

> smartctl -iA /dev/sdb
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.14.15-1-ARCH] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     SanDisk SD6SP1M256G1102
Serial Number:    141196400698
LU WWN Device Id: 5 001b44 beb8b143a
Firmware Version: X231302
User Capacity:    256,060,514,304 bytes [256 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      Unknown (0x0010)
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ATA8-ACS T13/1699-D revision 6
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sun Jul 22 03:01:37 2018 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 4
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0032   100   100   ---    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   253   100   ---    Old_age   Always       -       3184
 12 Power_Cycle_Count       0x0032   100   100   ---    Old_age   Always       -       16004
166 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       1
167 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       19
168 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       117
169 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       379
171 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0
172 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0
173 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       27
174 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       39
187 Reported_Uncorrect      0x0032   100   100   ---    Old_age   Always       -       0
194 Temperature_Celsius     0x0022   058   047   ---    Old_age   Always       -       42 (Min/Max 18/47)
212 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0
230 Unknown_SSD_Attribute   0x0032   100   100   ---    Old_age   Always       -       90
232 Available_Reservd_Space 0x0033   100   100   004    Pre-fail  Always       -       100
233 Media_Wearout_Indicator 0x0032   100   100   ---    Old_age   Always       -       7187
241 Total_LBAs_Written      0x0030   253   253   ---    Old_age   Offline      -       1266
242 Total_LBAs_Read         0x0030   253   253   ---    Old_age   Offline      -       1203
243 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0

其他Linux指令如dmidecodefdisklsblklspci沒有提供更多相關資訊。

注意:我發現了一些相關的問題,例如Raid-0 中的 1 個 SSD 故障導致開機磁碟機阻止電腦啟動如何修復遺失的 RAID1 驅動器但是我無法在啟動時存取 RAID 配置畫面。

如果可能的話,我想從這些磁碟中檢索資料。此時,我對刮擦資料並將剩餘磁碟變成單一磁碟不感興趣。最終,我會聯繫一家資料恢復公司,但我想知道問題是什麼以及是否有什麼我可以做的。

請參閱簡而言之問題部分。

答案1

這是一個核心錯誤,我正在使用帶有核心 5.10 的 debian 11 並且有相同的問題,一旦我升級到核心 5.18,它就消失了。

相關內容