Los voltajes del servidor Dual Xeon son bajos

Los voltajes del servidor Dual Xeon son bajos

Tengo un servidor de caja blanca que ejecuta CentOS 5.7. Es un Dual Xeon 5620, 24 GB de RAM. La placa base es una SuperMicro X8DT6-F y el chasis es un SC825TQ-R720LPB. Fuentes de alimentación duales de 720 W.

Tuvimos un gran corte de energía hace un par de semanas que destruyó todo. No tengo cifras previas al corte de energía para este servidor, y la única razón por la que los noté es porque cuando estaba abriendo los servidores los estaba revisando. con más escrutinio del habitual.

https://i.stack.imgur.com/gPc0Z.png(Imagen de lecturas de voltaje)

Como puede ver, CPU1 DIMM está bajo, +3.3V está alto, 3.3VSB está alto, +5v está alto, +12v está REAL BAJO (fuera del 5% normal (más/menos))... y VBAT está apagado los cuadros.

Con mi VAR de caja blanca hemos probado lo siguiente:

  1. Cambie la fuente de alimentación por otro servidor que tenga con las mismas fuentes de alimentación.
  2. Pruebe con un cable de alimentación diferente
  3. Actualice el firmware BMC/IPMI en caso de que las lecturas sean incorrectas (no lo son)
  4. Actualizar BIOS
  5. Pruebe una PDU diferente
  6. Pruebe con un tomacorriente y/o circuito diferente
  7. Unidad reguladora de voltaje reemplazada

En este punto, lo único que aparentemente no hemos hecho es reemplazar la placa base... que es el siguiente paso a menos que algo más arroje algo de luz sobre la situación.

Debo mencionar que el sistema es sólido como una roca, lo cual es una sorpresa dado que el voltaje de 12 V está tan lejos.

Respuesta1

Dado que usted dice que el servidor es sólido y funciona correctamente, y que esos voltajes están significativamente bajos, apuesto a que el software de monitoreo está malinterpretando los voltajes o que los sensores no funcionan correctamente o son defectuosos. Si esos fueran los voltajes reales, el sistema tendría muchos problemas y la batería probablemente se dañaría por sobrecarga.

Supongo que está utilizando IPMI para obtener las lecturas de voltaje; dado que eso está controlado por el fabricante del hardware, es poco probable que esté equivocado. Eso deja sensores de voltaje defectuosos, que estarían integrados en la placa base en la mayoría de los sistemas.

Para probar esta teoría, use un voltímetro para medir la batería y los rieles de alimentación de 12v. Dado que son los más alejados, debería ser fácil ver si se acercan en algo a lo que informan los sensores.

La solución es reemplazar la placa base o ignorar los sensores y esperar lo mejor.

Respuesta2

Restablecer la configuración del BMC eliminó los errores en los sensores y ahora todo se lee bien.

información relacionada