"WHEA_UNCORRECTABLE_ERROR" 메시지와 함께 서버(BSOD)가 예기치 않게 종료되었습니다.

"WHEA_UNCORRECTABLE_ERROR" 메시지와 함께 서버(BSOD)가 예기치 않게 종료되었습니다.

시스템 이벤트 로그를 확인한 결과 다음과 같은 경고가 반복적으로 기록된 것을 발견했습니다.

Event 17
A corrected hardware error has occurred.
Component: PCI Express Root Port
Error Source: Advanced Error Reporting (PCI Express)
Bus:Device:Function: 0x0:0x2:0x0
Vendor ID:Device ID: 0x8086:0x6F04
Class Code: 0x30400

그리고 시스템이 예기치 않게 종료되면(BSOD) 아래 오류가 기록되었습니다.

Event 16
A fatal hardware error has occurred.
Component: PCI Express Root Port
Error Source: Advanced Error Reporting (PCI Express)
Bus:Device:Function: 0x0:0x2:0x0
Vendor ID:Device ID: 0x8086:0x6F04
Class Code: 0x30400

서버 머신 생성(2021년 3월 27일) 이후 매일 경고(이벤트 17)가 기록되었음에도 불구하고 위의 오류(이벤트 16)로 인해 시스템이 예기치 않게 종료(20-7-21)된 경우는 한 번뿐입니다.

BSOD의 크래시 덤프 분석:

Crash dump file: D:\MEMORY.DMP
This was probably caused by the following module: pci.sys (pci+0x1364B)
Bug check code: 0x124 (0x4, 0xFFFFE000C7D1E038, 0x0, 0x0)
Error: WHEA_UNCORRECTABLE_ERROR
File path: C:\Windows\system32\drivers\pci.sys
Product: Microsoft® Windows® Operating System
Company: Microsoft Corporation
Description: NT Plug and Play PCI Enumerator
Bug check description: This bug check indicates that a fatal hardware error has occurred. This bug check uses the error data that is provided by the Windows Hardware Error Architecture (WHEA).
This is likely to be caused by a hardware problem.
The crash took place in a Microsoft module. Your system configuration may be incorrect. Possibly this problem is caused by another driver on your system that cannot be identified at this time.

우리는 시도했다

최신 Windows Server 2012 R2(v6.3.9600 Build 9600)로 업데이트했습니다.

모든 관련 드라이버가 최신 버전으로 업데이트되었습니다.

PCI.sys가 최신 버전(v6.3.9600.18939)으로 업데이트되었습니다.

서버 세부정보:

Motherboard: AsrockRack Server Board EP2C612D16NM-2T8R
Raid: Dell (LSI OEM) 9341-8I mega raid (Latest Firmware)
Processor: Intel(R) Xeon(R) CPU E5-2683 v4 @ 2.10 GHz, 2100 MHz
OS: Microsoft Windows Server 2012 R2 Standard
OS Version: 6.3.9600 Build 9600

답변1

이미 운영 체제와 드라이버를 최신 버전으로 업데이트한 경우 펌웨어 서버도 최신 버전으로 업데이트하는 것을 고려해야 합니다. 나타나는 오류 메시지는 하드웨어 결함을 가리키며, 오류 텍스트는 PCI 관련 구성 요소입니다. 다른 이유는 서버가 과열되었기 때문일 수 있습니다.

다음에서 이 문제를 해결하기 위한 몇 가지 다른 옵션을 얻을 수 있습니다.이것그리고이것서류.

이것이 당신에게 도움이 되기를 바랍니다.

관련 정보