HDD y SSD Linux: enlace de restablecimiento completo

HDD y SSD Linux: enlace de restablecimiento completo

Mi configuración de almacenamiento actual consta de dos HDD tradicionales y dos SSD en mi caja Linux, cada uno en su propia matriz RAID 1 cifrada mediante luks. Tengo una especie de historia, más que una pregunta concreta.

Desde hace más de un año, he recibido aleatoriamente errores de "vínculo de restablecimiento completo" en el registro del kernel de algunas de mis unidades. RMA la unidad problemática y las nuevas unidades harían que el problema desapareciera. Unos meses más tarde, finalmente comencé a ver el mismo error nuevamente en momentos aparentemente aleatorios. La unidad se marcaría como fallida en RAID y ya no aparecería en fdisk -l. Reiniciaba la computadora y la unidad aparecía nuevamente y podía volver a agregarla a la matriz y se reconstruía. Tarde o temprano ese problema volvería a ocurrir, normalmente unas horas más tarde.

Hace unos seis meses, reemplacé dos de los HDD tradicionales con SSD con la esperanza de que no tuvieran una tasa de falla tan alta como las unidades tradicionales. Sin embargo, en los últimos días comencé a tener problemas tanto con uno de los nuevos SSD como con uno de los discos tradicionales.

Estoy empezando a ver surgir un patrón. Consigo un disco nuevo, unos meses después empiezo a tener problemas con él. Siempre supuse que se debía a que los HDD tenían una alta tasa de fallas, pero ahora sucede con los SSD, así que creo que no es culpa del disco. ¿Qué más podría ser un problema? He tenido varios sistemas operativos instalados desde que comencé a tener el problema, así que quiero descartar un problema de software. Esto deja los cables SATA o la placa base. ¿Podría el cifrado del disco ejercer demasiada presión sobre las unidades? ¿Hay algo que pueda hacer para determinar más información? Gracias como siempre.

A continuación se muestra el dmesgresultado del problema de una pregunta que hice hace unos meses cuando tenía el mismo problema.

[43161.734107] ata3: ATA_REG 0x41 ERR_REG 0x84
[43161.734110] ata3: tag : dhfis dmafis sdbfis sactive
[43161.734113] ata3: tag 0x0: 1 1 0 1  
[43161.734123] ata3.00: exception Emask 0x1 SAct 0x1 SErr 0x180000 action 0x6 frozen
[43161.734127] ata3.00: Ata error. fis:0x21
[43161.734130] ata3: SError: { 10B8B Dispar }
[43161.734134] ata3.00: failed command: READ FPDMA QUEUED
[43161.734142] ata3.00: cmd 60/08:00:a8:03:00/00:00:00:00:00/40 tag 0 ncq 4096 in
[43161.734144]          res 41/84:04:a8:03:00/84:00:00:00:00/40 Emask 0x10 (ATA bus error)
[43161.734148] ata3.00: status: { DRDY ERR }
[43161.734150] ata3.00: error: { ICRC ABRT }
[43161.734155] ata3: hard resetting link
[43161.734158] ata3: nv: skipping hardreset on occupied port
[43162.220095] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43162.260202] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43162.260206] ata3.00: revalidation failed (errno=-19)
[43162.260211] ata3.00: limiting speed to UDMA/133:PIO2
[43167.220123] ata3: hard resetting link
[43167.220127] ata3: nv: skipping hardreset on occupied port
[43167.710060] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43167.750228] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43167.750232] ata3.00: revalidation failed (errno=-19)
[43167.750236] ata3.00: disabled
[43172.710100] ata3: hard resetting link
[43173.620110] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43173.640455] ata3.00: failed to IDENTIFY (INIT_DEV_PARAMS failed, err_mask=0x80)
[43178.620116] ata3: hard resetting link
[43179.530113] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43179.550748] ata3.00: ATA-8: WDC WD2002FAEX-007BA0, 05.01D05, max UDMA/133
[43179.550753] ata3.00: 3907029168 sectors, multi 16: LBA48 NCQ (depth 31/32)
[43179.570208] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43179.570213] ata3.00: revalidation failed (errno=-19)
[43179.570220] ata3: limiting SATA link speed to 1.5 Gbps
[43179.570224] ata3.00: limiting speed to UDMA/133:PIO3
[43184.530066] ata3: hard resetting link
[43184.530070] ata3: nv: skipping hardreset on occupied port
[43185.020091] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43185.060949] ata3.00: configured for UDMA/133
[43185.060969] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[43185.060974] sd 2:0:0:0: [sdd]  Sense Key : Aborted Command [current] [descriptor]
[43185.060980] Descriptor sense data with sense descriptors (in hex):
[43185.060983]         72 0b 47 00 00 00 00 0c 00 0a 80 00 00 00 00 00 
[43185.060995]         00 00 03 a8 
[43185.061000] sd 2:0:0:0: [sdd]  Add. Sense: Scsi parity error
[43185.061006] sd 2:0:0:0: [sdd] CDB: Read(10): 28 00 00 00 03 a8 00 00 08 00
[43185.061017] end_request: I/O error, dev sdd, sector 936
[43185.061023] Buffer I/O error on device sdd, logical block 117
[43185.061044] sd 2:0:0:0: rejecting I/O to offline device
[43185.061048] sd 2:0:0:0: killing request
[43185.061062] ata3: EH complete
[43185.061075] sd 2:0:0:0: rejecting I/O to offline device
[43185.061123] sd 2:0:0:0: rejecting I/O to offline device
[43185.061134] sd 2:0:0:0: rejecting I/O to offline device
[43185.061140] sd 2:0:0:0: rejecting I/O to offline device
[43185.061145] sd 2:0:0:0: [sdd] READ CAPACITY(16) failed
[43185.061147] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[43185.061152] sd 2:0:0:0: [sdd] Sense not available.
[43185.061155] sd 2:0:0:0: rejecting I/O to offline device
[43185.061166] sd 2:0:0:0: rejecting I/O to offline device
[43185.061175] sd 2:0:0:0: rejecting I/O to offline device
[43185.061185] sd 2:0:0:0: rejecting I/O to offline device
[43185.061193] sd 2:0:0:0: rejecting I/O to offline device
[43185.061198] sd 2:0:0:0: [sdd] READ CAPACITY failed
[43185.061202] sd 2:0:0:0: rejecting I/O to offline device
[43185.061209] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[43185.061215] sd 2:0:0:0: [sdd] Sense not available.
[43185.061226] sd 2:0:0:0: rejecting I/O to offline device
[43185.061235] sd 2:0:0:0: rejecting I/O to offline device
[43185.061245] sd 2:0:0:0: rejecting I/O to offline device
[43185.061254] sd 2:0:0:0: rejecting I/O to offline device
[43185.061263] sd 2:0:0:0: rejecting I/O to offline device
[43185.061274] sd 2:0:0:0: rejecting I/O to offline device
[43185.061280] sd 2:0:0:0: [sdd] Asking for cache data failed
[43185.061283] sd 2:0:0:0: [sdd] Assuming drive cache: write through
[43185.061289] sdd: detected capacity change from 2000398934016 to 0
[43185.061610] ata3.00: detaching (SCSI 2:0:0:0)
[43185.062444] sd 2:0:0:0: [sdd] Stopping disk
[43249.120042] ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[43249.120046] ata4.00: failed command: FLUSH CACHE EXT
[43249.120051] ata4.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
[43249.120052]          res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[43249.120054] ata4.00: status: { DRDY }
[43249.120059] ata4: hard resetting link
[43249.120060] ata4: nv: skipping hardreset on occupied port
[43249.610042] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43249.650323] ata4.00: configured for UDMA/133
[43249.650326] ata4.00: retrying FLUSH 0xea Emask 0x4
[43249.650452] ata4.00: device reported invalid CHS sector 0
[43249.650458] ata4: EH complete

Respuesta1

Tienes una pregunta aquí. Creo (si entiendo correctamente) ¿cuál es el proceso para determinar qué está causando esta falla?

Soy ingeniero de seguridad de redes. Así que entiendo que me siento avergonzado mientras escribo esto. Elimine esto como un problema criptográfico. Descifre las unidades y vea si todavía tiene el problema. La desventaja es que necesitarás usarlos durante varios meses descifrados.

Los cables son una prueba sencilla (y debes empezar por ahí primero). Cámbielos, pero me cuesta creer que ese sea el problema a menos que tenga luces de neón dentro de su estuche.

Eso deja el mobo. Si no son los otros dos...

Estoy seguro de que alguien intervendrá si no está de acuerdo con mi solución de problemas. No es costoso cambiar los cables y desactivar temporalmente el cifrado es un riesgo de seguridad que sólo usted puede determinar si está dispuesto a aceptar.

Respuesta2

Parece que tienes muchos errores en tu enlace SATA. Como resultado, el host no puede obtener comandos de manera confiable a través del enlace y, cuando lo hace, a veces los datos devueltos están dañados.

Verá en los mensajes que la velocidad es limitada o que no se recibió el identificador de unidad esperado. También ve mensajes confusos de diferentes capas del controlador que no necesariamente reflejan lo que está sucediendo a nivel de hardware de SATA. Por ejemplo, "limitar la velocidad a UDMA/133:PIO3" se aplica estrictamente sólo a unidades ATA paralelas (solo significa que el controlador está intentando una velocidad de interfaz más lenta para ver si los errores desaparecen), pero los mensajes de error indican claramente que la velocidad más baja El nivel que realmente trata con el hardware entiende que está hablando con una unidad SATA.

Tu idea de que podrían ser los cables SATA es buena. Intente reemplazarlos y asegúrese de que estén clasificados para SATA 3,0 Gb/s (también llamado "SATA 2" o "SATA II"). No creo que tus discos sean el problema. ¿Por qué los errores tardan varios meses en aparecer después de reemplazar la unidad? Tal vez los cables se estén aflojando de alguna manera y reemplazar la unidad los vuelve a colocar. O tal vez sea simplemente una casualidad.

información relacionada