Errores del disco duro SATA

Question 1

En mi experiencia, los errores que estás viendo son en realidad errores de hardware reflejados en el software. El mensaje 'escritura de página perdida debido a un error de E/S' es uno que he visto en discos duros defectuosos y se comporta de manera similar a como lo describe cuando intenta realizar un fsck. Es casi seguro que se trata de un verdadero fallo de hardware.

Deberías comprobar el resultado de smartctl para ver qué dice que podría ser un problema.

smartctl --attributes /dev/sdb

Le dará un resultado similar a este:

=== INICIO DE LA SECCIÓN DE LEER DATOS INTELIGENTES ===
Número de revisión de la estructura de datos de atributos SMART: 16
Atributos SMART específicos del proveedor con umbrales:
ID# ATTRIBUTE_NAME VALOR DE INDICADOR PEOR TIPO UMBRAL ACTUALIZADO CUANDO_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f 200 200 051 Pre-fallo Siempre - 0
  3 Spin_Up_Time 0x0003 212 186 021 Pre-fallo Siempre - 4358
  4 Start_Stop_Count 0x0032 100 100 000 Old_age Siempre - 97
  5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fallo Siempre - 0
  7 Seek_Error_Rate 0x000f 200 200 051 Pre-fallo Siempre - 0
  9 Power_On_Hours 0x0032 066 066 000 Old_age Siempre - 25420
 10 Spin_Retry_Count 0x0013 100 253 051 Pre-fallo Siempre - 0
 11 Calibration_Retry_Count 0x0013 100 253 051 Pre-fallo Siempre - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Siempre - 86
194 Temperature_Celsius 0x0022 104 001 000 Old_age Siempre - 46
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Siempre - 0
197 Current_Pending_Sector 0x0012 200 200 000 Old_age Siempre - 0
198 Desconectado_Incorregible 0x0010 200 200 000 Old_age Sin conexión - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Siempre - 0
200 Multi_Zone_Error_Rate 0x0009 200 200 051 Pre-fallo Sin conexión - 0

La salida puede ser arcana, pero a la que prestaría mucha atención sería Reallocated_Sector_Ct, ya que te dice qué tiene el HD para los sectores defectuosos conocidos. El comando 'smartctl -a' proporcionará muchos más datos. En el disco duro defectuoso que tuve hace un tiempo, la parte inferior de esa salida es el 'Registro de errores SMART' que tenía algunas entradas.

Answer

En mi experiencia, los errores que estás viendo son en realidad errores de hardware reflejados en el software. El mensaje 'escritura de página perdida debido a un error de E/S' es uno que he visto en discos duros defectuosos y se comporta de manera similar a como lo describe cuando intenta realizar un fsck. Es casi seguro que se trata de un verdadero fallo de hardware.

Deberías comprobar el resultado de smartctl para ver qué dice que podría ser un problema.

smartctl --attributes /dev/sdb

Le dará un resultado similar a este:

=== INICIO DE LA SECCIÓN DE LEER DATOS INTELIGENTES ===
Número de revisión de la estructura de datos de atributos SMART: 16
Atributos SMART específicos del proveedor con umbrales:
ID# ATTRIBUTE_NAME VALOR DE INDICADOR PEOR TIPO UMBRAL ACTUALIZADO CUANDO_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f 200 200 051 Pre-fallo Siempre - 0
  3 Spin_Up_Time 0x0003 212 186 021 Pre-fallo Siempre - 4358
  4 Start_Stop_Count 0x0032 100 100 000 Old_age Siempre - 97
  5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fallo Siempre - 0
  7 Seek_Error_Rate 0x000f 200 200 051 Pre-fallo Siempre - 0
  9 Power_On_Hours 0x0032 066 066 000 Old_age Siempre - 25420
 10 Spin_Retry_Count 0x0013 100 253 051 Pre-fallo Siempre - 0
 11 Calibration_Retry_Count 0x0013 100 253 051 Pre-fallo Siempre - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Siempre - 86
194 Temperature_Celsius 0x0022 104 001 000 Old_age Siempre - 46
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Siempre - 0
197 Current_Pending_Sector 0x0012 200 200 000 Old_age Siempre - 0
198 Desconectado_Incorregible 0x0010 200 200 000 Old_age Sin conexión - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Siempre - 0
200 Multi_Zone_Error_Rate 0x0009 200 200 051 Pre-fallo Sin conexión - 0

La salida puede ser arcana, pero a la que prestaría mucha atención sería Reallocated_Sector_Ct, ya que te dice qué tiene el HD para los sectores defectuosos conocidos. El comando 'smartctl -a' proporcionará muchos más datos. En el disco duro defectuoso que tuve hace un tiempo, la parte inferior de esa salida es el 'Registro de errores SMART' que tenía algunas entradas.

Question 2

Tuviste un error de lectura incorregible.

Error: UNC at LBA = 0x03800922 = 58722594

Los datos que había en ese bloque ahora se pierden.

Debería:

Utilice un espejo en primer lugar. En realidad, los discos empresariales están diseñados para estar detrás de un espejo y prefieren devolver un error de lectura que esforzarse mucho para obtener los datos.
recuperar los datos perdidos de las copias de seguridad

NO TIENE EXCUSA para no usar RAID (¡especialmente si aloja un sitio web para clientes!): el sistema operativo no es tan grande, no necesita un disco dedicado en un sistema de 2 discos.

Answer

Tuviste un error de lectura incorregible.

Error: UNC at LBA = 0x03800922 = 58722594

Los datos que había en ese bloque ahora se pierden.

Debería:

Utilice un espejo en primer lugar. En realidad, los discos empresariales están diseñados para estar detrás de un espejo y prefieren devolver un error de lectura que esforzarse mucho para obtener los datos.
recuperar los datos perdidos de las copias de seguridad

NO TIENE EXCUSA para no usar RAID (¡especialmente si aloja un sitio web para clientes!): el sistema operativo no es tan grande, no necesita un disco dedicado en un sistema de 2 discos.

Question 3

¿Estás utilizando un controlador RAID? ¿Qué tipo de controlador estás usando?

Una de las cosas (que es a la vez frustrante y esclarecedora) es la creciente segmentación que los fabricantes de HDD están introduciendo en el mercado de SATA. Ahora hay unidades para 'uso RAID/pequeñas empresas' y 'uso único/de escritorio'. SAS parece estar impulsada por el mercado de las "empresas de alto nivel".

Su modelo # es la serie de unidades RE3 de WD, diseñadas para configuraciones RAID. Me han dicho que esto significa, entre otras cosas, que la unidad se rendirá antes (es decir, en 3 o 4 segundos) cuando intente reparar errores, en lugar de intentarlo una y otra vez durante un período de tiempo más largo. Darse por vencido antes informa el error al controlador RAID, por lo que puede usar otra unidad para recuperarse. Si, en cambio, la unidad espera más, el controlador RAID expulsará la unidad de la matriz por no responder.

Los fracasos deberíanaúnser raro y no una vez al año. ¿Quizás sea otro aspecto de su configuración? (Una vez tuve una pelea frustrante con un cable SATA. Ahora está montado sobre mi puerta como advertencia para otros cables...)

Answer

¿Estás utilizando un controlador RAID? ¿Qué tipo de controlador estás usando?

Una de las cosas (que es a la vez frustrante y esclarecedora) es la creciente segmentación que los fabricantes de HDD están introduciendo en el mercado de SATA. Ahora hay unidades para 'uso RAID/pequeñas empresas' y 'uso único/de escritorio'. SAS parece estar impulsada por el mercado de las "empresas de alto nivel".

Su modelo # es la serie de unidades RE3 de WD, diseñadas para configuraciones RAID. Me han dicho que esto significa, entre otras cosas, que la unidad se rendirá antes (es decir, en 3 o 4 segundos) cuando intente reparar errores, en lugar de intentarlo una y otra vez durante un período de tiempo más largo. Darse por vencido antes informa el error al controlador RAID, por lo que puede usar otra unidad para recuperarse. Si, en cambio, la unidad espera más, el controlador RAID expulsará la unidad de la matriz por no responder.

Los fracasos deberíanaúnser raro y no una vez al año. ¿Quizás sea otro aspecto de su configuración? (Una vez tuve una pelea frustrante con un cable SATA. Ahora está montado sobre mi puerta como advertencia para otros cables...)

Question 4

He tenido una muy mala experiencia con las unidades Western Digital. Más de la mitad de mis unidades tuvieron que ser reemplazadas bajo garantía debido a fallas totales o sectores defectuosos.

Después de comprar sólo discos WD durante unos 8 años, ya no quiero gastar dinero en ellos. No tengo idea de en qué disco WD puedo confiar; Mi experiencia hasta ahora dice "ninguno de ellos".

Ha reemplazado la unidad original 4 veces; ¿Compraste las cinco unidades al mismo tiempo? ¿Comprar uno nuevo para reemplazar cada uno cuando falló? ¿Devolver la unidad en garantía para reemplazarla? ¿Cómo y cuándo adquiriste las cinco unidades y qué modelos eran? En mi experiencia, los lotes de discos WD suelen estar defectuosos y fallar al mismo tiempo.

Answer

He tenido una muy mala experiencia con las unidades Western Digital. Más de la mitad de mis unidades tuvieron que ser reemplazadas bajo garantía debido a fallas totales o sectores defectuosos.

Después de comprar sólo discos WD durante unos 8 años, ya no quiero gastar dinero en ellos. No tengo idea de en qué disco WD puedo confiar; Mi experiencia hasta ahora dice "ninguno de ellos".

Ha reemplazado la unidad original 4 veces; ¿Compraste las cinco unidades al mismo tiempo? ¿Comprar uno nuevo para reemplazar cada uno cuando falló? ¿Devolver la unidad en garantía para reemplazarla? ¿Cómo y cuándo adquiriste las cinco unidades y qué modelos eran? En mi experiencia, los lotes de discos WD suelen estar defectuosos y fallar al mismo tiempo.

Errores del disco duro SATA

Respuesta1

Respuesta2

Respuesta3

Respuesta4

información relacionada