Apagado inesperado del servidor (BSOD) con el mensaje "WHEA_UNCORRECTABLE_ERROR"

Apagado inesperado del servidor (BSOD) con el mensaje "WHEA_UNCORRECTABLE_ERROR"

Cuando revisamos el registro de eventos del sistema, encontramos que la siguiente advertencia se registró repetidamente.

Event 17
A corrected hardware error has occurred.
Component: PCI Express Root Port
Error Source: Advanced Error Reporting (PCI Express)
Bus:Device:Function: 0x0:0x2:0x0
Vendor ID:Device ID: 0x8086:0x6F04
Class Code: 0x30400

Y cuando el sistema se apagó inesperadamente (BSOD), se registró el siguiente error.

Event 16
A fatal hardware error has occurred.
Component: PCI Express Root Port
Error Source: Advanced Error Reporting (PCI Express)
Bus:Device:Function: 0x0:0x2:0x0
Vendor ID:Device ID: 0x8086:0x6F04
Class Code: 0x30400

El sistema se apagó inesperadamente (20-7-21) solo una vez con el error anterior (evento 16) a pesar de que la advertencia (evento 17) se registró diariamente desde la creación de la máquina servidor (27-03-2021).

Análisis de volcado de memoria del BSOD:

Crash dump file: D:\MEMORY.DMP
This was probably caused by the following module: pci.sys (pci+0x1364B)
Bug check code: 0x124 (0x4, 0xFFFFE000C7D1E038, 0x0, 0x0)
Error: WHEA_UNCORRECTABLE_ERROR
File path: C:\Windows\system32\drivers\pci.sys
Product: Microsoft® Windows® Operating System
Company: Microsoft Corporation
Description: NT Plug and Play PCI Enumerator
Bug check description: This bug check indicates that a fatal hardware error has occurred. This bug check uses the error data that is provided by the Windows Hardware Error Architecture (WHEA).
This is likely to be caused by a hardware problem.
The crash took place in a Microsoft module. Your system configuration may be incorrect. Possibly this problem is caused by another driver on your system that cannot be identified at this time.

Hemos tratado

Hemos actualizado al último servidor Windows 2012 R2 (v6.3.9600 Build 9600)

Todos los controladores relevantes se han actualizado a la última versión.

PCI.sys se ha actualizado a la última versión (v6.3.9600.18939)

Detalles del servidor:

Motherboard: AsrockRack Server Board EP2C612D16NM-2T8R
Raid: Dell (LSI OEM) 9341-8I mega raid (Latest Firmware)
Processor: Intel(R) Xeon(R) CPU E5-2683 v4 @ 2.10 GHz, 2100 MHz
OS: Microsoft Windows Server 2012 R2 Standard
OS Version: 6.3.9600 Build 9600

Respuesta1

Si ya ha actualizado el sistema operativo y los controladores a la última versión, quizás debería considerar actualizar también el servidor de firmware a la última versión. El mensaje de error que recibe también apunta a un hardware defectuoso, ya que el texto de error es un componente relacionado con PCI. Otras razones pueden ser que su servidor se esté sobrecalentando.

Puede obtener varias otras opciones para intentar solucionar este problema enestey enestedocumentos.

Espero que esto sea de ayuda para ti.

información relacionada