HDD e SSD Linux: link de reinicialização forçada

HDD e SSD Linux: link de reinicialização forçada

minha configuração de armazenamento atual consiste em dois HDDs tradicionais e dois SSDs em minha caixa Linux, cada um em seu próprio array RAID 1 que é criptografado via luks. Tenho uma espécie de história, em vez de uma pergunta concreta.

Há mais de um ano, recebo aleatoriamente erros de "link de reinicialização forçada" no log do kernel de algumas de minhas unidades. Eu faria RMA da unidade com problema e as novas unidades fariam com que o problema parasse. Alguns meses depois, eu finalmente começaria a ver o mesmo erro novamente em momentos aparentemente aleatórios. A unidade seria marcada como com falha no RAID e não apareceria mais no fdisk -l. Eu reiniciaria o computador e a unidade apareceria novamente e eu poderia adicioná-la novamente ao array e ele seria reconstruído. Mais cedo ou mais tarde, esse problema aconteceria novamente, geralmente algumas horas depois.

Cerca de seis meses atrás, substituí dois HDDs tradicionais por SSDs na esperança de que eles não tivessem uma taxa de falhas tão alta quanto as unidades tradicionais. No entanto, nos últimos dias comecei a ter problemas tanto com um dos novos SSDs quanto com uma das unidades tradicionais.

Estou começando a ver um padrão emergir. Recebi uma nova unidade e, alguns meses depois, comecei a ter problemas com ela. Sempre presumi que era devido ao fato de os HDDs terem uma alta taxa de falhas, mas agora está acontecendo com os SSDs, então estou pensando que não é culpa da unidade. O que mais poderia ser problema? Eu instalei vários sistemas operacionais desde que comecei a ter o problema, então quero descartar um problema de software. Isso deixa os cabos SATA ou a placa-mãe. A criptografia do disco poderia estar sobrecarregando demais as unidades? Há algo que eu possa fazer para determinar mais informações? Obrigado como sempre.

Abaixo está o dmesgresultado do problema de uma pergunta que fiz há alguns meses, quando estava tendo o mesmo problema.

[43161.734107] ata3: ATA_REG 0x41 ERR_REG 0x84
[43161.734110] ata3: tag : dhfis dmafis sdbfis sactive
[43161.734113] ata3: tag 0x0: 1 1 0 1  
[43161.734123] ata3.00: exception Emask 0x1 SAct 0x1 SErr 0x180000 action 0x6 frozen
[43161.734127] ata3.00: Ata error. fis:0x21
[43161.734130] ata3: SError: { 10B8B Dispar }
[43161.734134] ata3.00: failed command: READ FPDMA QUEUED
[43161.734142] ata3.00: cmd 60/08:00:a8:03:00/00:00:00:00:00/40 tag 0 ncq 4096 in
[43161.734144]          res 41/84:04:a8:03:00/84:00:00:00:00/40 Emask 0x10 (ATA bus error)
[43161.734148] ata3.00: status: { DRDY ERR }
[43161.734150] ata3.00: error: { ICRC ABRT }
[43161.734155] ata3: hard resetting link
[43161.734158] ata3: nv: skipping hardreset on occupied port
[43162.220095] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43162.260202] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43162.260206] ata3.00: revalidation failed (errno=-19)
[43162.260211] ata3.00: limiting speed to UDMA/133:PIO2
[43167.220123] ata3: hard resetting link
[43167.220127] ata3: nv: skipping hardreset on occupied port
[43167.710060] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43167.750228] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43167.750232] ata3.00: revalidation failed (errno=-19)
[43167.750236] ata3.00: disabled
[43172.710100] ata3: hard resetting link
[43173.620110] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43173.640455] ata3.00: failed to IDENTIFY (INIT_DEV_PARAMS failed, err_mask=0x80)
[43178.620116] ata3: hard resetting link
[43179.530113] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43179.550748] ata3.00: ATA-8: WDC WD2002FAEX-007BA0, 05.01D05, max UDMA/133
[43179.550753] ata3.00: 3907029168 sectors, multi 16: LBA48 NCQ (depth 31/32)
[43179.570208] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43179.570213] ata3.00: revalidation failed (errno=-19)
[43179.570220] ata3: limiting SATA link speed to 1.5 Gbps
[43179.570224] ata3.00: limiting speed to UDMA/133:PIO3
[43184.530066] ata3: hard resetting link
[43184.530070] ata3: nv: skipping hardreset on occupied port
[43185.020091] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43185.060949] ata3.00: configured for UDMA/133
[43185.060969] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[43185.060974] sd 2:0:0:0: [sdd]  Sense Key : Aborted Command [current] [descriptor]
[43185.060980] Descriptor sense data with sense descriptors (in hex):
[43185.060983]         72 0b 47 00 00 00 00 0c 00 0a 80 00 00 00 00 00 
[43185.060995]         00 00 03 a8 
[43185.061000] sd 2:0:0:0: [sdd]  Add. Sense: Scsi parity error
[43185.061006] sd 2:0:0:0: [sdd] CDB: Read(10): 28 00 00 00 03 a8 00 00 08 00
[43185.061017] end_request: I/O error, dev sdd, sector 936
[43185.061023] Buffer I/O error on device sdd, logical block 117
[43185.061044] sd 2:0:0:0: rejecting I/O to offline device
[43185.061048] sd 2:0:0:0: killing request
[43185.061062] ata3: EH complete
[43185.061075] sd 2:0:0:0: rejecting I/O to offline device
[43185.061123] sd 2:0:0:0: rejecting I/O to offline device
[43185.061134] sd 2:0:0:0: rejecting I/O to offline device
[43185.061140] sd 2:0:0:0: rejecting I/O to offline device
[43185.061145] sd 2:0:0:0: [sdd] READ CAPACITY(16) failed
[43185.061147] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[43185.061152] sd 2:0:0:0: [sdd] Sense not available.
[43185.061155] sd 2:0:0:0: rejecting I/O to offline device
[43185.061166] sd 2:0:0:0: rejecting I/O to offline device
[43185.061175] sd 2:0:0:0: rejecting I/O to offline device
[43185.061185] sd 2:0:0:0: rejecting I/O to offline device
[43185.061193] sd 2:0:0:0: rejecting I/O to offline device
[43185.061198] sd 2:0:0:0: [sdd] READ CAPACITY failed
[43185.061202] sd 2:0:0:0: rejecting I/O to offline device
[43185.061209] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[43185.061215] sd 2:0:0:0: [sdd] Sense not available.
[43185.061226] sd 2:0:0:0: rejecting I/O to offline device
[43185.061235] sd 2:0:0:0: rejecting I/O to offline device
[43185.061245] sd 2:0:0:0: rejecting I/O to offline device
[43185.061254] sd 2:0:0:0: rejecting I/O to offline device
[43185.061263] sd 2:0:0:0: rejecting I/O to offline device
[43185.061274] sd 2:0:0:0: rejecting I/O to offline device
[43185.061280] sd 2:0:0:0: [sdd] Asking for cache data failed
[43185.061283] sd 2:0:0:0: [sdd] Assuming drive cache: write through
[43185.061289] sdd: detected capacity change from 2000398934016 to 0
[43185.061610] ata3.00: detaching (SCSI 2:0:0:0)
[43185.062444] sd 2:0:0:0: [sdd] Stopping disk
[43249.120042] ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[43249.120046] ata4.00: failed command: FLUSH CACHE EXT
[43249.120051] ata4.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
[43249.120052]          res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[43249.120054] ata4.00: status: { DRDY }
[43249.120059] ata4: hard resetting link
[43249.120060] ata4: nv: skipping hardreset on occupied port
[43249.610042] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43249.650323] ata4.00: configured for UDMA/133
[43249.650326] ata4.00: retrying FLUSH 0xea Emask 0x4
[43249.650452] ata4.00: device reported invalid CHS sector 0
[43249.650458] ata4: EH complete

Responder1

Você tem uma pergunta aqui. Eu acho (se bem entendi) qual é o processo para determinar o que está causando essa falha?

Sou engenheiro de segurança de rede. Então entenda que estou me encolhendo enquanto digito isso. Elimine isso como um problema de criptografia. Descriptografe as unidades e veja se o problema ainda persiste. A desvantagem é que você precisará usá-los descriptografados por vários meses.

Os cabos são um teste simples (e você deve começar por aí primeiro). Troque-os, mas tenho dificuldade em acreditar que esse seja o problema, a menos que você tenha luzes de néon dentro do gabinete.

Isso deixa a mobo. Se não forem os outros dois...

Tenho certeza de que alguém irá intervir se discordar da minha solução de problemas. Não é caro trocar os cabos, e desabilitar a criptografia temporariamente é um risco de segurança que só você pode determinar se estiver disposto a aceitar.

Responder2

Parece que você tem muitos erros no seu link SATA. Como resultado, o host não consegue obter comandos de forma confiável através do link e, quando isso acontece, às vezes os dados retornados são corrompidos.

Você vê isso nas mensagens que a velocidade é limitada ou que o identificador da unidade esperado não foi recebido. Você também está vendo mensagens confusas de diferentes camadas do driver que não refletem necessariamente o que está acontecendo no nível de hardware do SATA. Por exemplo, "limitar velocidade para UDMA/133:PIO3" aplica-se estritamente apenas a unidades ATA paralelas (significa apenas que o driver está tentando uma velocidade de interface mais lenta para ver se os erros são resolvidos), mas as mensagens de erro indicam claramente que a velocidade mais baixa O nível que realmente lida com o hardware entende que está se comunicando com uma unidade SATA.

Sua ideia de que poderiam ser os cabos SATA é boa. Tente substituí-los e certifique-se de que sejam classificados para SATA 3,0 Gb/s (também chamado de "SATA 2" ou "SATA II"). Não acho que suas unidades sejam o problema. Por que leva vários meses para que os erros apareçam após a substituição da unidade? Talvez os cabos estejam se soltando de alguma forma e a substituição da unidade os recoloque. Ou talvez seja apenas um acaso aleatório.

informação relacionada