「WHEA_UNCORRECTABLE_ERROR」というメッセージが表示され、サーバーが予期せずシャットダウンしました (BSOD)

「WHEA_UNCORRECTABLE_ERROR」というメッセージが表示され、サーバーが予期せずシャットダウンしました (BSOD)

システム イベント ログを確認すると、次の警告が繰り返し記録されていることがわかりました。

Event 17
A corrected hardware error has occurred.
Component: PCI Express Root Port
Error Source: Advanced Error Reporting (PCI Express)
Bus:Device:Function: 0x0:0x2:0x0
Vendor ID:Device ID: 0x8086:0x6F04
Class Code: 0x30400

システムが予期せずシャットダウンすると (BSOD)、以下のエラーが記録されます。

Event 16
A fatal hardware error has occurred.
Component: PCI Express Root Port
Error Source: Advanced Error Reporting (PCI Express)
Bus:Device:Function: 0x0:0x2:0x0
Vendor ID:Device ID: 0x8086:0x6F04
Class Code: 0x30400

サーバー マシンの作成 (2021 年 3 月 27 日) 以降、警告 (イベント 17) が毎日記録されていたにもかかわらず、システムが予期せずシャットダウンしたのは (2021 年 7 月 20 日)、上記のエラー (イベント 16) が 1 回だけでした。

BSOD のクラッシュ ダンプ分析:

Crash dump file: D:\MEMORY.DMP
This was probably caused by the following module: pci.sys (pci+0x1364B)
Bug check code: 0x124 (0x4, 0xFFFFE000C7D1E038, 0x0, 0x0)
Error: WHEA_UNCORRECTABLE_ERROR
File path: C:\Windows\system32\drivers\pci.sys
Product: Microsoft® Windows® Operating System
Company: Microsoft Corporation
Description: NT Plug and Play PCI Enumerator
Bug check description: This bug check indicates that a fatal hardware error has occurred. This bug check uses the error data that is provided by the Windows Hardware Error Architecture (WHEA).
This is likely to be caused by a hardware problem.
The crash took place in a Microsoft module. Your system configuration may be incorrect. Possibly this problem is caused by another driver on your system that cannot be identified at this time.

私たちは試しました

最新の Windows Server 2012 R2 (v6.3.9600 Build 9600) にアップデートしました。

関連するすべてのドライバーが最新バージョンに更新されました

PCI.sys が最新バージョン (v6.3.9600.18939) に更新されました

サーバーの詳細:

Motherboard: AsrockRack Server Board EP2C612D16NM-2T8R
Raid: Dell (LSI OEM) 9341-8I mega raid (Latest Firmware)
Processor: Intel(R) Xeon(R) CPU E5-2683 v4 @ 2.10 GHz, 2100 MHz
OS: Microsoft Windows Server 2012 R2 Standard
OS Version: 6.3.9600 Build 9600

答え1

すでにオペレーティング システムとドライバーを最新バージョンに更新している場合は、ファームウェア サーバーも最新バージョンに更新することを検討してください。エラー メッセージはハードウェアの障害も示しており、エラー テキストは PCI 関連コンポーネントです。その他の原因としては、サーバーが過熱している可能性があります。

この問題のトラブルシューティングには、他にもいくつかのオプションがあります。これそしてこれ文書。

これがあなたにとって役立つことを願っています。

関連情報