Fallo de SSD RAID-0: error de E/S, err_mask=0x4

Fallo de SSD RAID-0: error de E/S, err_mask=0x4

Configuración

Yo tengo unASUS UX301LA-DE022H. contiene dosSSD SanDisk SD6SP1M-256G-1102, 256G cada uno, configurado como Intel Firmware RAID 0 (también conocido como RAID falso).

Qué pasó

Estaba usando Windows normalmente. Me ausenté por unos minutos y cuando regresé, la PC mostraba una pantalla negra y solo arrancaba en la pantalla de configuración UEFI sin opciones de arranque.

Por lo tanto, la PC no ha sufrido ningún impacto o daño físico. En este punto sospecho que se trata de una actualización de Windows desordenada o de una falla del software o de la unidad física.

En una palabra

Uno de los SSD ya no se detecta, lo que invalida todo el disco RAID 0. El error más relevante de dmesges failed to IDENTIFY (I/O error, err_mask=0x4).

¿Cuál es el problema? ¿Es un fallo físico? ¿Cuál es el componente con mayor probabilidad de fallar? Me gustaría saber qué componente electrónico falló en ese caso.

¿Cómo procedería una empresa de recuperación de datos para recuperar los datos? ¿Reemplazarían el controlador SSD? ¿Buscarían una resistencia muerta?


Encuentre a continuación todos los detalles:

Investigación

  • la computadora tarda 120 segundos en mostrar la pantalla de configuración UEFI
  • no hay opciones de arranque disponibles desde la pantalla de configuración UEFI
  • un SSD es funcional (¡pero es solo la mitad del RAID 0!):

    • se detecta al arrancar en una memoria USB de Linux

      > dmesg|grep ata2
      [    3.590698] ata2: SATA max UDMA/133 abar m2048@0xf7d22000 port 0xf7d22180 irq 43
      [   51.454606] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
      [   51.455389] ata2.00: ACPI cmd ef/10:09:00:00:00:b0 (SET FEATURES) succeeded
      [   51.456504] ata2.00: ATA-8: SanDisk SD6SP1M256G1102, X231302, max UDMA/133
      [   51.456510] ata2.00: 500118192 sectors, multi 1: LBA48 NCQ (depth 31/32), AA
      [   51.457752] ata2.00: ACPI cmd ef/10:09:00:00:00:b0 (SET FEATURES) succeeded
      [   51.459283] ata2.00: configured for UDMA/133
      
    • cuando el SSD está solo, la PC arranca inmediatamente sin ningún problema

    • cuando el SSD está solo, la configuración UEFI lo detecta correctamente

ssd-funcionando-uefi

  • un SSD no funciona:

    • NO se detecta al arrancar en una memoria USB de Linux

      > dmesg|grep ata1
      [    3.590697] ata1: SATA max UDMA/133 abar m2048@0xf7d22000 port 0xf7d22100 irq 43
      [    3.904513] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
      [    9.013343] ata1.00: qc timeout (cmd 0xec)
      [    9.013356] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
      [    9.327983] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
      [   19.466671] ata1.00: qc timeout (cmd 0xec)
      [   19.466683] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
      [   19.466690] ata1: limiting SATA link speed to 3.0 Gbps
      [   19.781305] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
      [   50.826666] ata1.00: qc timeout (cmd 0xec)
      [   50.826678] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
      [   51.141298] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
      
    • cuando el SSD está solo, la PC arranca lentamente

    • cuando el SSD está solo, la configuración UEFI lo detecta incorrectamente

ssd-no-funciona-uefi

  • Ambos puertos SATA están bien: probé el SSD funcional en cada puerto y se detectó correcta y rápidamente.
  • cuando ambos SSD están presentes, la pantalla de configuración UEFI muestra ambos discos. Ese último punto me desconcierta: parece que la PC puede saber que hay dos SSD, pero se agota el tiempo al intentar llegar a uno de ellos.

ambos-ssd

  • Ambos SSD no presentan daños visuales.

ssd-1 ssd-2

Información adicional (solo muestra la parte relevante):

> blkid
/dev/sdb: TYPE="isw_raid_member"

> lsscsi -L
[1:0:0:0]    disk    ATA      SanDisk SD6SP1M2 302   /dev/sdb
  device_blocked=0
  iocounterbits=32
  iodone_cnt=0x6d
  ioerr_cnt=0x2
  iorequest_cnt=0x6d
  queue_depth=31
  queue_type=simple
  scsi_level=6
  state=running
  timeout=30
  type=0

> smartctl -iA /dev/sdb
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.14.15-1-ARCH] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     SanDisk SD6SP1M256G1102
Serial Number:    141196400698
LU WWN Device Id: 5 001b44 beb8b143a
Firmware Version: X231302
User Capacity:    256,060,514,304 bytes [256 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      Unknown (0x0010)
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ATA8-ACS T13/1699-D revision 6
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sun Jul 22 03:01:37 2018 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 4
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0032   100   100   ---    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   253   100   ---    Old_age   Always       -       3184
 12 Power_Cycle_Count       0x0032   100   100   ---    Old_age   Always       -       16004
166 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       1
167 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       19
168 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       117
169 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       379
171 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0
172 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0
173 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       27
174 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       39
187 Reported_Uncorrect      0x0032   100   100   ---    Old_age   Always       -       0
194 Temperature_Celsius     0x0022   058   047   ---    Old_age   Always       -       42 (Min/Max 18/47)
212 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0
230 Unknown_SSD_Attribute   0x0032   100   100   ---    Old_age   Always       -       90
232 Available_Reservd_Space 0x0033   100   100   004    Pre-fail  Always       -       100
233 Media_Wearout_Indicator 0x0032   100   100   ---    Old_age   Always       -       7187
241 Total_LBAs_Written      0x0030   253   253   ---    Old_age   Offline      -       1266
242 Total_LBAs_Read         0x0030   253   253   ---    Old_age   Offline      -       1203
243 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0

Otros comandos de Linux como dmidecode, y no proporcionaron información más relevante.fdisklsblklspci

NB: encontré algunas preguntas relacionadas comoFallo de 1 SSD en Raid-0 que era el disco de arranque que impedía que la computadora arrancarayCómo reparar la unidad RAID1 faltanteSin embargo, no pude acceder a la pantalla de configuración RAID al inicio.

Si es posible, me gustaría recuperar los datos de esos discos. En este punto, no estoy interesado en rayar los datos y convertir el disco restante en un solo disco. Eventualmente me comunicaré con una empresa de recuperación de datos pero me gustaría saber cuál es el problema y si hay algo que pueda hacer.

Por favor refiérase aEn una palabrasección para la pregunta.

Respuesta1

Este es un error del kernel. Estoy usando Debian 11 con el kernel 5.10 y tengo el mismo problema. Una vez que actualicé al kernel 5.18, desapareció.

información relacionada