Falha de SSD RAID-0: erro de E/S, err_mask=0x4

Falha de SSD RAID-0: erro de E/S, err_mask=0x4

Configurar

eu tenho umAsus UX301LA-DE022H. Ele contém doisSSD SanDisk SD6SP1M-256G-1102, 256 G cada, configurado como Intel Firmware RAID 0 (também conhecido como RAID falso).

O que aconteceu

Eu estava usando o Windows normalmente. Afastei-me por alguns minutos e quando voltei, o PC exibia uma tela preta e inicializava apenas na tela de configuração UEFI sem opções de inicialização.

Portanto, o PC não sofreu nenhum choque/dano físico. Neste ponto, suspeito de uma atualização confusa do Windows ou de uma falha de software/unidade física.

Em poucas palavras

Um dos SSDs não é mais detectado, tornando todo o disco RAID 0 inválido. O erro mais relevante dmesgé failed to IDENTIFY (I/O error, err_mask=0x4).

Qual é o problema? É uma falha física? Qual é o componente com maior probabilidade de falhar? Eu ficaria curioso para saber qual componente eletrônico falhou nesse caso.

Como uma empresa de recuperação de dados procederia para recuperar os dados? Eles substituiriam o controlador SSD? Eles procurariam um resistor morto?


Encontre abaixo todos os detalhes:

Investigação

  • o computador leva 120 segundos para exibir a tela de configuração UEFI
  • não há opções de inicialização disponíveis na tela de configuração UEFI
  • um SSD está funcional (mas é apenas metade do RAID 0!):

    • é detectado durante a inicialização no pendrive Linux

      > dmesg|grep ata2
      [    3.590698] ata2: SATA max UDMA/133 abar m2048@0xf7d22000 port 0xf7d22180 irq 43
      [   51.454606] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
      [   51.455389] ata2.00: ACPI cmd ef/10:09:00:00:00:b0 (SET FEATURES) succeeded
      [   51.456504] ata2.00: ATA-8: SanDisk SD6SP1M256G1102, X231302, max UDMA/133
      [   51.456510] ata2.00: 500118192 sectors, multi 1: LBA48 NCQ (depth 31/32), AA
      [   51.457752] ata2.00: ACPI cmd ef/10:09:00:00:00:b0 (SET FEATURES) succeeded
      [   51.459283] ata2.00: configured for UDMA/133
      
    • quando o SSD está sozinho, o PC inicia imediatamente sem nenhum problema

    • quando o SSD está sozinho, ele é detectado corretamente pela configuração UEFI

ssd-working-uefi

  • um SSD não está funcionando:

    • NÃO é detectado durante a inicialização no pendrive Linux

      > dmesg|grep ata1
      [    3.590697] ata1: SATA max UDMA/133 abar m2048@0xf7d22000 port 0xf7d22100 irq 43
      [    3.904513] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
      [    9.013343] ata1.00: qc timeout (cmd 0xec)
      [    9.013356] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
      [    9.327983] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
      [   19.466671] ata1.00: qc timeout (cmd 0xec)
      [   19.466683] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
      [   19.466690] ata1: limiting SATA link speed to 3.0 Gbps
      [   19.781305] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
      [   50.826666] ata1.00: qc timeout (cmd 0xec)
      [   50.826678] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
      [   51.141298] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
      
    • quando o SSD está sozinho, o PC inicia lentamente

    • quando o SSD está sozinho, ele é detectado incorretamente pela configuração UEFI

ssd-não-funciona-uefi

  • ambas as portas SATA estão OK: experimentei o SSD funcional em cada porta e ele foi detectado correta e rapidamente.
  • quando ambos os SSD estão presentes, a tela de configuração UEFI mostra os dois discos. Esse último ponto me intriga: parece que o PC consegue saber que existem dois SSDs, mas atinge o tempo limite ao tentar acessar um deles.

ambos-ssd

  • ambos SSD não apresentam danos visuais

ssd-1 ssd-2

Informações adicionais (mostrando apenas a parte relevante):

> blkid
/dev/sdb: TYPE="isw_raid_member"

> lsscsi -L
[1:0:0:0]    disk    ATA      SanDisk SD6SP1M2 302   /dev/sdb
  device_blocked=0
  iocounterbits=32
  iodone_cnt=0x6d
  ioerr_cnt=0x2
  iorequest_cnt=0x6d
  queue_depth=31
  queue_type=simple
  scsi_level=6
  state=running
  timeout=30
  type=0

> smartctl -iA /dev/sdb
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.14.15-1-ARCH] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     SanDisk SD6SP1M256G1102
Serial Number:    141196400698
LU WWN Device Id: 5 001b44 beb8b143a
Firmware Version: X231302
User Capacity:    256,060,514,304 bytes [256 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      Unknown (0x0010)
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ATA8-ACS T13/1699-D revision 6
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sun Jul 22 03:01:37 2018 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 4
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0032   100   100   ---    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   253   100   ---    Old_age   Always       -       3184
 12 Power_Cycle_Count       0x0032   100   100   ---    Old_age   Always       -       16004
166 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       1
167 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       19
168 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       117
169 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       379
171 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0
172 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0
173 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       27
174 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       39
187 Reported_Uncorrect      0x0032   100   100   ---    Old_age   Always       -       0
194 Temperature_Celsius     0x0022   058   047   ---    Old_age   Always       -       42 (Min/Max 18/47)
212 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0
230 Unknown_SSD_Attribute   0x0032   100   100   ---    Old_age   Always       -       90
232 Available_Reservd_Space 0x0033   100   100   004    Pre-fail  Always       -       100
233 Media_Wearout_Indicator 0x0032   100   100   ---    Old_age   Always       -       7187
241 Total_LBAs_Written      0x0030   253   253   ---    Old_age   Offline      -       1266
242 Total_LBAs_Read         0x0030   253   253   ---    Old_age   Offline      -       1203
243 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0

Outros comandos do Linux , como dmidecode, e não forneceram informações mais relevantes.fdisklsblklspci

NB: Encontrei algumas perguntas relacionadas, comoFalha de 1 SSD no Raid-0 que estava impedindo a inicialização do computadoreComo consertar unidade RAID1 ausentePorém não consegui acessar a tela de configuração do RAID na inicialização.

Se possível, gostaria de recuperar os dados desses discos. Neste ponto, não estou interessado em riscar os dados e transformar o disco restante em um único disco. Eventualmente, entrarei em contato com uma empresa de recuperação de dados, mas gostaria de saber qual é o problema e se há algo que eu possa fazer.

ConsulteEm poucas palavrasseção para a pergunta.

Responder1

este é um bug do kernel, estou usando o debian 11 com kernel 5.10 e tenho o mesmo problema, depois que atualizei para o kernel 5.18 ele desapareceu.

informação relacionada