RAID-0 SSD 障害: I/O エラー、err_mask=0x4

RAID-0 SSD 障害: I/O エラー、err_mask=0x4

設定

を持っていますエイスース UX301LA-DE022H2つのSSD サンディスク SD6SP1M-256G-1102、それぞれ 256G、Intel ファームウェア RAID 0 (別名、偽 RAID) として構成されています。

どうしたの

通常通り Windows を使用していました。数分間離れてから戻ると、PC に黒い画面が表示され、起動オプションのない UEFI 構成画面のみが起動しました。

つまり、PC は衝撃や物理的な損傷を受けていないということです。この時点では、Windows のアップデートが不適切だったか、ソフトウェアまたは物理的なドライブの障害が疑われます。

一言で言えば

SSD の 1 つが検出されなくなったため、RAID 0 ディスク全体が無効になっています。最も関連性の高いエラーはdmesgですfailed to IDENTIFY (I/O error, err_mask=0x4)

問題は何ですか? 物理的な故障ですか? 故障する可能性が高いコンポーネントは何ですか? この場合、どの電子コンポーネントが故障したのか知りたいです。

データ復旧会社はどのようにデータの復旧を進めるのでしょうか? SSD コントローラーを交換するのでしょうか? 故障した抵抗器を探すのでしょうか?


詳細は以下をご覧ください:

調査

  • コンピュータがUEFI構成画面を表示するのに120秒かかります
  • UEFI構成画面から起動オプションを選択できない
  • 1 つの SSD が機能しています (ただし、RAID 0 の半分だけです)。

    • Linux USBスティックで起動中に検出される

      > dmesg|grep ata2
      [    3.590698] ata2: SATA max UDMA/133 abar m2048@0xf7d22000 port 0xf7d22180 irq 43
      [   51.454606] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
      [   51.455389] ata2.00: ACPI cmd ef/10:09:00:00:00:b0 (SET FEATURES) succeeded
      [   51.456504] ata2.00: ATA-8: SanDisk SD6SP1M256G1102, X231302, max UDMA/133
      [   51.456510] ata2.00: 500118192 sectors, multi 1: LBA48 NCQ (depth 31/32), AA
      [   51.457752] ata2.00: ACPI cmd ef/10:09:00:00:00:b0 (SET FEATURES) succeeded
      [   51.459283] ata2.00: configured for UDMA/133
      
    • SSD単体では問題なくPCがすぐに起動します

    • SSDが単体の場合、UEFI構成によって正しく検出されます。

SSD の動作 UEFI

  • 1 つの SSD が機能していません:

    • Linux USBスティックで起動しても検出されない

      > dmesg|grep ata1
      [    3.590697] ata1: SATA max UDMA/133 abar m2048@0xf7d22000 port 0xf7d22100 irq 43
      [    3.904513] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
      [    9.013343] ata1.00: qc timeout (cmd 0xec)
      [    9.013356] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
      [    9.327983] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
      [   19.466671] ata1.00: qc timeout (cmd 0xec)
      [   19.466683] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
      [   19.466690] ata1: limiting SATA link speed to 3.0 Gbps
      [   19.781305] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
      [   50.826666] ata1.00: qc timeout (cmd 0xec)
      [   50.826678] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
      [   51.141298] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
      
    • SSDが単体だとPCの起動が遅くなる

    • SSDが単独で存在する場合、UEFI構成によって誤って検出されます。

SSD が動作しない UEFI

  • 両方の SATA ポートは正常です。各ポートで機能する SSD を試したところ、正しく迅速に検出されました。
  • 両方の SSD が存在する場合、UEFI 構成画面には両方のディスクが表示されます。最後の点が私には理解できません。PC は 2 つの SSD があることを認識できるものの、そのうちの 1 つにアクセスしようとするとタイムアウトしてしまうようです。

両方のSSD

  • 両方のSSDに目に見える損傷はない

ssd-1 ssd-2

追加情報(関連部分のみ表示):

> blkid
/dev/sdb: TYPE="isw_raid_member"

> lsscsi -L
[1:0:0:0]    disk    ATA      SanDisk SD6SP1M2 302   /dev/sdb
  device_blocked=0
  iocounterbits=32
  iodone_cnt=0x6d
  ioerr_cnt=0x2
  iorequest_cnt=0x6d
  queue_depth=31
  queue_type=simple
  scsi_level=6
  state=running
  timeout=30
  type=0

> smartctl -iA /dev/sdb
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.14.15-1-ARCH] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     SanDisk SD6SP1M256G1102
Serial Number:    141196400698
LU WWN Device Id: 5 001b44 beb8b143a
Firmware Version: X231302
User Capacity:    256,060,514,304 bytes [256 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      Unknown (0x0010)
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ATA8-ACS T13/1699-D revision 6
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sun Jul 22 03:01:37 2018 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 4
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0032   100   100   ---    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   253   100   ---    Old_age   Always       -       3184
 12 Power_Cycle_Count       0x0032   100   100   ---    Old_age   Always       -       16004
166 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       1
167 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       19
168 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       117
169 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       379
171 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0
172 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0
173 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       27
174 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       39
187 Reported_Uncorrect      0x0032   100   100   ---    Old_age   Always       -       0
194 Temperature_Celsius     0x0022   058   047   ---    Old_age   Always       -       42 (Min/Max 18/47)
212 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0
230 Unknown_SSD_Attribute   0x0032   100   100   ---    Old_age   Always       -       90
232 Available_Reservd_Space 0x0033   100   100   004    Pre-fail  Always       -       100
233 Media_Wearout_Indicator 0x0032   100   100   ---    Old_age   Always       -       7187
241 Total_LBAs_Written      0x0030   253   253   ---    Old_age   Offline      -       1266
242 Total_LBAs_Read         0x0030   253   253   ---    Old_age   Offline      -       1203
243 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0

dmidecode、、fdiskなどの他の Linux コマンドではlsblklspciより関連性の高い情報は提供されませんでした。

注意: 関連する質問がいくつか見つかりました。ブートドライブである RAID-0 の 1 つの SSD に障害が発生し、コンピュータの起動が停止しました。そして失われたRAID1ドライブを修復する方法しかし、起動時に RAID 構成画面にアクセスできませんでした。

可能であれば、それらのディスクからデータを復元したいと思います。現時点では、データを消去して残りのディスクを 1 つのディスクにすることには興味がありません。最終的にはデータ復旧会社に連絡するつもりですが、何が問題なのか、何かできることはないか知りたいです。

参照一言で言えば質問のセクション。

答え1

これはカーネルのバグです。私はカーネル 5.10 を搭載した Debian 11 を使用していますが、同じ問題が発生しています。カーネル 5.18 にアップグレードしたら問題はなくなりました。

関連情報