Коды ошибок MCE/розовый экран — должны ли они быть причиной для беспокойства?

Коды ошибок MCE/розовый экран — должны ли они быть причиной для беспокойства?

Итак, я недавно приобрел серверную систему вместе со всеми периферийными устройствами серверного класса. У меня есть лицензия на ESXi 6 и установлены все последние исправления. Система работает уже около 2 недель, и вдруг у меня случился полный сбой.

Я интерпретирую этот код ошибки как "Внутренняя ошибка таймера". Я переслал информацию в SuperMicro, но, честно говоря, пока не очень уверен в их ответах. Моя интерпретация была в том, что система просто не должна падать - по той причине, что это Xeon с памятью ECC, работающей под управлением ESXi.

Возможно ли, что это была какая-то разовая ошибка и она не должна повториться? Как бы вы с этим справились? Ищу совет от тех, кто видел такие ошибки и что они в итоге делают.

Крушение

решение1

Вы видите эту ошибку (MCE, исключение проверки машины) именно потому, что у него есть ECC RAM.

У вас где-то сломалось оборудование, скорее всего, карта памяти, но, возможно, один или несколько процессоров (возможно, CPU 10?) или что-то среднее. Обратитесь в свой контракт на поддержку.

Это могут быть и другие части оборудования, но каждый раз, когда я это видел, это была неисправная ECC RAM, испытывающая многобитовые ошибки. Если MCE расшифровывается как «внутренняя ошибка таймера», то следующим наиболее вероятным является неисправный процессор или материнская плата.

решение2

Да, это повод для беспокойства. Сервер упал!

Проверьте контакты сокета оперативной памяти и процессора (если вы собирали сервер вручную).

Это все, что вы получите. Вы можете обратиться в службу поддержки VMware, и они проанализируют для вас аварийный дамп.

Связанный контент