我收到了一封來自用戶的電子郵件,他擔心他的一台伺服器上出現以下錯誤表明存在嚴重問題。問題是,下面的錯誤是全部我必須繼續下去。我通常認為自己是個不錯的 Google 員工,但在這種情況下我只能找到一使用者遇到有關「探針過濾器目錄」的錯誤的其他事件:
[1044 snapshots @ abc]$
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: CPU:0
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: MC4_ADDR: 0x0000000000010f40
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the
Probe Filter directory.
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
據我所知,這種情況只發生過一次。在日誌中尋找其他硬體錯誤,除了這一事件之外沒有發現任何其他錯誤。
我上面引用的論壇帖子只是簡單地結束,基本上告訴用戶不要擔心它,如果它只發生一次並且沒有導致任何致命問題。這與我從同事那裡得到的建議相同,他們也提到變數太多(即 9 月 8 日凌晨 2:50 運行的是什麼?)。
然而,該用戶希望確信他們的系統沒有出現問題。上述錯誤顯示什麼或與什麼有關?什麼是“探針過濾器目錄”?我可以運行哪些測試來讓用戶放心,這不會將他們的機器標記為即將到來的厄運?
該電腦的 Linux 發行版是 Red Hat Enterprise Linux Server 版本 6.4 (Santiago)。
答案1
我沒有確切的答案,但其中一些是熟悉的。我不知道 Probe Filter 目錄是什麼,但 CptSupermrkt 上面解釋了這一點。
在 PCI 中,北橋連接到記憶體和處理器。 ECC 錯誤與 DRAM 相關。每個字都儲存有糾錯碼位。在讀取時,會檢查它們是否已更新。 ECC 錯誤是可修正或不可修正的,這表示使用寫入的位元來修正錯誤的能力。無法修正並不表示有永久性硬體錯誤。當 DRAM 開始出現故障時,就會發生這些情況。
考慮到所有這些,這看起來像是一個暫時性錯誤。您可以嘗試進行完整的記憶體測試,但這不太可能找到任何結果。如果 DRAM 故障,您唯一的糾正措施就是更換它。