Fallo repetido del disco en el servidor Dell T610

Fallo repetido del disco en el servidor Dell T610

Compré un Poweredge T610 usado y lo actualicé a 2 procesadores Hexcore Xeon X5675 y 96 GB de RAM. Inicialmente, utilicé 3 unidades WD green de 2 TB en una matriz RAID-5 (controlador Perc6i) e instalé el servidor Ubuntu en el disco virtual. Esta configuración me funcionó bien durante aproximadamente un año y luego comenzaron los problemas:

Compré algunas unidades nuevas para ampliarlas como una segunda matriz: 4 unidades rojas WD de 3 TB. Mientras tanto, había aprendido que al menos el WD verde no es una buena opción, así que quería hacer una copia de seguridad de algunos datos del nuevo VD. Resulta que al Perc6i no le gustan los discos >2TB, pero reconoció los primeros 2 de 3 TB. Todavía no había comenzado a configurar un VD con las nuevas unidades, pero 3 semanas después, mi matriz verde de WD comenzó a corromperse (primero solo glifos extraños en algunos programas, luego problemas más graves hasta que la secuencia de inicio se corrompió). Terminé con un servicio de recuperación de datos profesional que afortunadamente pudo ayudarme. Cambié el Perc6i por un H700 y configuré una matriz RAID6 de 4 discos WD rojos de 3 TB (que probé con la prueba extendida de diagnóstico de hardware de Dell antes de la configuración; no hubo errores en ninguno de ellos). Instale Ubuntu, todo el software que necesito, x2go, etc. En funcionamiento nuevamente.

Ahora tengo el mismo problema que antes: en X2go comienza con el mismo software (paquete artemis de bioinformática) escupiendo glifos en la línea de comando y parece que estoy volviendo al punto de partida. Todos los LED de estado de los caddies están en verde constante, es decir, en línea. No se prevé ningún fallo que al menos el sistema reconozca.

Estoy empezando a preguntarme cuál podría ser el problema:

Lo que no creo que sea probable: -fallo del disco primario (¡otra vez!), ya que las unidades eran nuevas, no tenían sectores defectuosos tras pruebas prolongadas y no tuvieron mucho tiempo de encendido. -El controlador perc6i se cambió por un H700 después del primer desastre y no debería ser el problema.

Qué necesito ayuda para evaluar: -¿Problemas con el backplane/cable? (El controlador H700 vino con cables para otro tipo de servidor que no encajaba en mi caso; simplemente usé otro cable SATA6 para conectar el controlador al backplane) Por cierto, las unidades están ubicadas en las mismas bahías que las anteriores, que fallaron. con un cable SATA original de Dell que va allí.

-¿Problemas con la placa base? -¿Problemas de CPU o RAM? -Fuente de alimentación (¿picos de voltaje??)

¿Alguien ha tenido un problema similar antes? Cualquier ayuda aquí es muy apreciada. Lamentablemente, estaré ausente otras dos semanas antes de poder acceder al servidor (tanto físicamente como en la red). Mi esposa, que trabaja con el servidor en nuestra red local, "informó" el problema (pero lamentablemente no será posible). capaz de ayudar a solucionar problemas).


Sí, ejecuté el procedimiento completo de diagnóstico de hardware de Dell, sin ningún problema. Solo se detectó una de las unidades con bloques defectuosos, pero no pude reconstruir la matriz raid 5, de ahí el especialista en recuperación de datos. Todo el resto del hardware estaba bien

Sólo me pregunto si podría haber problemas inconsistentes, como contactos defectuosos en cualquier lugar, que puedan pasar las pruebas en un momento y fallar en otro momento. O si las pruebas no cubren todos los escenarios...

Respuesta1

Por experiencia, parece un problema de corrupción de RAM. Lo primero que probaría es una herramienta de diagnóstico de memoria. Dell los tiene disponibles mediante descarga.

Si no encuentra errores, retiraría todo el hardware para reducirlo al mínimo necesario y luego los volvería a agregar hasta que vea el problema. Lleva mucho tiempo pero a veces es la única manera si los diagnósticos no muestran nada. Obviamente, es difícil hacer esto con discos duros, pero puedes hacerlo con CPU y RAM. No olvides volver a agregar las cosas una a la vez o no sabrás cuál es la culpa.

Mi otra sugerencia es utilizar un hipervisor y crear máquinas virtuales en lugar de instalarlas en un sistema básico. Esto hará que restaurar la funcionalidad ante fallas sea mucho más fácil. Además, establecer un régimen de copias de seguridad antes de instalar aplicaciones le ayudará a evitar volver a necesitar servicios de recuperación de datos.

Respuesta2

¿Mala suerte? Pruebe el disco duro en otra computadora nueva para ver su estado actual.

Tenga en cuenta que un T610 tiene como 9 años. Sinceramente, creo que cualquier computadora de escritorio actual sería más rápida que una T610.

El firmware de la unidad puede afectar, pero su matriz los marcaría como disco externo, el hecho de que los haya cambiado todos a la vez es mejor, ninguna unidad Dell con su firmware con una unidad estándar mezclada, el controlador no lo permitiría.

Su firmware en el disco permite que el controlador realice funciones avanzadas con el disco, mientras que una matriz, si se utiliza un disco básico con firmware normal, actuará normalmente.

El hecho de que se haya detectado su matriz me hace pensar que el controlador puede verlos y usarlos. Es por eso que al principio digo mala suerte.

información relacionada