
Tengo un servidor con WDC WD3202ABYS... Hay 100 hosts virtuales. El servidor ha estado funcionando durante aproximadamente 5 años y en este período he cambiado 4 discos. Todo por el mismo motivo: error sata. El último:
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:60:57:7b:b6/00:01:06:00:00/e0 tag 0 dma 180224 out
res 51/10:60:57:7b:b6/10:01:06:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
Add. Sense: Recorded entity not found
Descriptor sense data with sense descriptors (in hex):
72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00
06 b6 7b 57
end_request: I/O error, dev sdb, sector 112622423
Buffer I/O error on device dm-8, logical block 14077747
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077748
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077749
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077750
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077751
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077756
lost page write due to I/O error on dm-8
ata2: EH complete
SCSI device sdb: 625142448 512-byte hdwr sectors (320073 MB)
sdb: Write Protect is off
sdb: Mode Sense: 00 3a 00 00
SCSI device sdb: drive cache: write back
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:90:17:30:b7/00:02:08:00:00/e0 tag 0 dma 335872 out
res 51/10:90:17:30:b7/10:02:08:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
Add. Sense: Recorded entity not found
Descriptor sense data with sense descriptors (in hex):
72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00
08 b7 30 17
end_request: I/O error, dev sdb, sector 146223127
printk: 34 messages suppressed.
Buffer I/O error on device dm-8, logical block 18277835
Parece algún error de software...
pero poco tiempo después de eso (tal vez cuando comencé fsck) se produjo el siguiente error:
EXT3-fs error (device dm-8): ext3_put_super: Couldn't clean up the journal
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/01:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x1 (device error)
ata2.00: status: { DRDY ERR }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
¿Es posible que estos errores también sean de "software"... Quiero decir, este disco duro tiene solo 9000 horas... donde no hay carga adicional en el disco duro... la temperatura es de 29 grados Celsius... ¿Necesito reemplazar el disco duro? ¿O comprobar el disco es suficiente?
EXT3-fs error (device dm-8): ext3_put_super: Couldn't clean up the journal
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/01:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x1 (device error)
ata2.00: status: { DRDY ERR }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
¿Cómo saber la razón?
Aquí hay errores de Smart:
Error 36 occurred at disk power-on lifetime: 9160 hours (381 days + 16 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 22 09 80 e3 Error: UNC at LBA = 0x03800922 = 58722594
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 08 1f 09 80 03 0a 47d+13:38:13.534 READ DMA
ec 00 00 00 00 00 00 0a 47d+13:38:13.530 IDENTIFY DEVICE
ef 03 46 00 00 00 00 0a 47d+13:38:13.528 SET FEATURES [Set transfer mode]
De acuerdo. ¿Es posible el siguiente escenario? 1. El disco estaba en 9000 sin fsck. 2. Hay algunos errores 3. En dmesg comenzaron errores como:
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:60:57:7b:b6/00:01:06:00:00/e0 tag 0 dma 180224 out
res 51/10:60:57:7b:b6/10:01:06:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
Add. Sense: Recorded entity not found
- Y errores como error de inodo y demás...
- Intenté desmontar esta partición y el error proviene del disco duro como si no pudiera encontrar dicho inodo, etc.
Si es así... no lo entiendo. ¿Necesito cambiar el disco cada año? ¿Solo para evitar este error? ¿Alguien tiene el mismo problema? No sólo con un disco...
Respuesta1
En mi experiencia, los errores que estás viendo son en realidad errores de hardware reflejados en el software. El mensaje 'escritura de página perdida debido a un error de E/S' es uno que he visto en discos duros defectuosos y se comporta de manera similar a como lo describe cuando intenta realizar un fsck. Es casi seguro que se trata de un verdadero fallo de hardware.
Deberías comprobar el resultado de smartctl para ver qué dice que podría ser un problema.
smartctl --attributes /dev/sdb
Le dará un resultado similar a este:
=== INICIO DE LA SECCIÓN DE LEER DATOS INTELIGENTES === Número de revisión de la estructura de datos de atributos SMART: 16 Atributos SMART específicos del proveedor con umbrales: ID# ATTRIBUTE_NAME VALOR DE INDICADOR PEOR TIPO UMBRAL ACTUALIZADO CUANDO_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 200 200 051 Pre-fallo Siempre - 0 3 Spin_Up_Time 0x0003 212 186 021 Pre-fallo Siempre - 4358 4 Start_Stop_Count 0x0032 100 100 000 Old_age Siempre - 97 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fallo Siempre - 0 7 Seek_Error_Rate 0x000f 200 200 051 Pre-fallo Siempre - 0 9 Power_On_Hours 0x0032 066 066 000 Old_age Siempre - 25420 10 Spin_Retry_Count 0x0013 100 253 051 Pre-fallo Siempre - 0 11 Calibration_Retry_Count 0x0013 100 253 051 Pre-fallo Siempre - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Siempre - 86 194 Temperature_Celsius 0x0022 104 001 000 Old_age Siempre - 46 196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Siempre - 0 197 Current_Pending_Sector 0x0012 200 200 000 Old_age Siempre - 0 198 Desconectado_Incorregible 0x0010 200 200 000 Old_age Sin conexión - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Siempre - 0 200 Multi_Zone_Error_Rate 0x0009 200 200 051 Pre-fallo Sin conexión - 0
La salida puede ser arcana, pero a la que prestaría mucha atención sería Reallocated_Sector_Ct, ya que te dice qué tiene el HD para los sectores defectuosos conocidos. El comando 'smartctl -a' proporcionará muchos más datos. En el disco duro defectuoso que tuve hace un tiempo, la parte inferior de esa salida es el 'Registro de errores SMART' que tenía algunas entradas.
Respuesta2
Tuviste un error de lectura incorregible.
Error: UNC at LBA = 0x03800922 = 58722594
Los datos que había en ese bloque ahora se pierden.
Debería:
- Utilice un espejo en primer lugar. En realidad, los discos empresariales están diseñados para estar detrás de un espejo y prefieren devolver un error de lectura que esforzarse mucho para obtener los datos.
- recuperar los datos perdidos de las copias de seguridad
NO TIENE EXCUSA para no usar RAID (¡especialmente si aloja un sitio web para clientes!): el sistema operativo no es tan grande, no necesita un disco dedicado en un sistema de 2 discos.
Respuesta3
¿Estás utilizando un controlador RAID? ¿Qué tipo de controlador estás usando?
Una de las cosas (que es a la vez frustrante y esclarecedora) es la creciente segmentación que los fabricantes de HDD están introduciendo en el mercado de SATA. Ahora hay unidades para 'uso RAID/pequeñas empresas' y 'uso único/de escritorio'. SAS parece estar impulsada por el mercado de las "empresas de alto nivel".
Su modelo # es la serie de unidades RE3 de WD, diseñadas para configuraciones RAID. Me han dicho que esto significa, entre otras cosas, que la unidad se rendirá antes (es decir, en 3 o 4 segundos) cuando intente reparar errores, en lugar de intentarlo una y otra vez durante un período de tiempo más largo. Darse por vencido antes informa el error al controlador RAID, por lo que puede usar otra unidad para recuperarse. Si, en cambio, la unidad espera más, el controlador RAID expulsará la unidad de la matriz por no responder.
Los fracasos deberíanaúnser raro y no una vez al año. ¿Quizás sea otro aspecto de su configuración? (Una vez tuve una pelea frustrante con un cable SATA. Ahora está montado sobre mi puerta como advertencia para otros cables...)
Respuesta4
He tenido una muy mala experiencia con las unidades Western Digital. Más de la mitad de mis unidades tuvieron que ser reemplazadas bajo garantía debido a fallas totales o sectores defectuosos.
Después de comprar sólo discos WD durante unos 8 años, ya no quiero gastar dinero en ellos. No tengo idea de en qué disco WD puedo confiar; Mi experiencia hasta ahora dice "ninguno de ellos".
Ha reemplazado la unidad original 4 veces; ¿Compraste las cinco unidades al mismo tiempo? ¿Comprar uno nuevo para reemplazar cada uno cuando falló? ¿Devolver la unidad en garantía para reemplazarla? ¿Cómo y cuándo adquiriste las cinco unidades y qué modelos eran? En mi experiencia, los lotes de discos WD suelen estar defectuosos y fallar al mismo tiempo.