Códigos de erro MCE/tela rosa – eles devem ser motivo de preocupação?

Códigos de erro MCE/tela rosa – eles devem ser motivo de preocupação?

Então, comprei recentemente um sistema de nível de servidor junto com todos os periféricos de nível de servidor. Sou licenciado para ESXi 6 e tenho todos os patches recentes instalados. O sistema está funcionando há cerca de 2 semanas e, de repente, tive uma falha completa.

Interpretei esse código de erro como "Erro interno do temporizador". Encaminhei as informações para a SuperMicro, mas para ser sincero, não estou muito confiante com as respostas deles até agora. Minha interpretação foi que o sistema simplesmente não deveria travar - porque é um Xeon com memória ECC rodando ESXi.

É possível que isso tenha sido um erro único e não deva acontecer novamente? Como você lidaria com isto? Procuro alguns conselhos de quem já viu esses tipos de erros e o que eles realmente acabam fazendo.

Colidir

Responder1

Você vê este erro (MCE, exceção de verificação de máquina) precisamente porque possui RAM ECC.

Você tem algum hardware quebrado em algum lugar, provavelmente um cartão de memória, mas possivelmente um ou mais processadores (CPU 10, talvez?) Ou algo intermediário. Invoque seu contrato de suporte.

Também podem ser outros bits do hardware, mas sempre que vi isso, houve falha na RAM ECC com falhas de vários bits. Se o MCE for decodificado como "erro de temporizador interno", a próxima coisa mais provável é uma CPU ou placa-mãe com defeito.

Responder2

Sim, é motivo de preocupação. O servidor travou!

Verifique a RAM e os pinos do soquete da CPU (se você montou o servidor manualmente).

Essas são todas as informações que você obterá. Você pode abrir um caso de suporte com a VMware e eles analisarão o despejo de memória para você.

informação relacionada