
Cuidamos un servidor Fujitsu RX300 S4 que tiene 6 unidades SATA de 500 GB en una matriz RAID-6, que se ejecuta desde una tarjeta LSI MegaRAID (integrada en la placa base).
Hace un par de semanas, un disco duro se marcó como defectuoso (luz naranja en el compartimiento de la unidad, el software MegaRAIDcli muestra un estado de firmware de "Error"). Pedimos y reemplazamos la unidad, pero después de que comenzó la reconstrucción, una unidad diferente se marcó como defectuosa.
Esto ha sucedido 3 veces: dos veces señaló diferentes unidades que tenían una falla y una vez señaló una unidad que ya habíamos reemplazado.
En este momento, dos unidades muestran fallas; no sabemos si las unidades estánde hechofalla, o si el backplane o la tarjeta RAID tienen fallas.
¿Alguien ha experimentado esto antes? ¿Algún consejo sobre qué hacer a continuación? Tenemos una llamada a Fujitsu, pero nos preguntamos si alguien tiene algún consejo...
Respuesta1
Lo siento por ti. Este tipo de problemas de hardware son extremadamente estresantes y molestos de depurar.
En 2002 tuve el "alegría" de depurar un problema similar. Después de muchísimo "Reemplacemos un HD" y un servidor similar masajeando el backplane fue la falla real. Pero ese era un servidor IBM y, de todos modos, una historia completamente diferente.
Si es posible, pruebe las unidades "defectuosas" con otro servidor y vea si funcionan normalmente allí. Mi instinto me dice que en su caso no se trata de los discos, sino que hay algo más roto. Los discos tienden a no romperse así.
Respuesta2
Esto podría ser un controlador defectuoso. Podría ser una energía poco confiable. Podrían ser cables SATA defectuosos. Podría ser simplemente una mala suerte.