Códigos de error MCE/pantalla rosa: ¿deberían ser motivo de preocupación?

Códigos de error MCE/pantalla rosa: ¿deberían ser motivo de preocupación?

Así que recientemente compré un sistema de calidad de servidor junto con todos los periféricos de calidad de servidor. Tengo licencia para ESXi 6 y tengo instalados todos los parches recientes. El sistema ha estado funcionando durante aproximadamente 2 semanas y, de repente, tuve un bloqueo total.

He interpretado este código de error como "Error del temporizador interno". Envié la información a SuperMicro pero, para ser honesto, no estoy muy seguro de sus respuestas hasta ahora. Mi interpretación fue que el sistema simplemente no debería fallar, ya que es un Xeon con memoria ECC que ejecuta ESXi.

¿Es posible que esto haya sido un error puntual y no debería volver a suceder? ¿Cómo manejarías esto? Buscando algunos consejos de quienes han visto este tipo de errores y qué terminan haciendo realmente.

Chocar

Respuesta1

Ve este error (MCE, excepción de verificación de la máquina) precisamente porque tiene RAM ECC.

Tiene algún hardware roto en alguna parte, probablemente una tarjeta de memoria, pero posiblemente uno o más procesadores (¿CPU 10 tal vez?) o algo intermedio. Invoque su contrato de soporte.

También pueden ser otros bits del hardware, pero cada vez que he visto esto, ha sido una RAM ECC defectuosa que experimenta fallas de múltiples bits. Si el MCE se decodificó como "error de temporizador interno", lo siguiente más probable es una CPU o placa base defectuosa.

Respuesta2

Sí, es motivo de preocupación. ¡El servidor falló!

Verifique su RAM y los pines del zócalo de su CPU (si ensambló el servidor a mano).

Esa es toda la información que obtendrás. Puede abrir un caso de soporte con VMware y ellos analizarán el volcado de memoria por usted.

información relacionada