「ノースブリッジ エラー (ノード 0): プローブ フィルター ディレクトリの ECC エラー」

「ノースブリッジ エラー (ノード 0): プローブ フィルター ディレクトリの ECC エラー」

あるユーザーから、自分のサーバーの1つで以下のエラーが発生し、深刻な問題が起きているのではないかと心配するメールを受け取りました。問題は、以下のエラーが全て続けるしかない。私は普段はまともなGoogleユーザーだと思っているが、今回の場合は1つユーザーが「プローブ フィルター ディレクトリ」に関してこのエラーに遭遇したその他のインシデント:

[1044 snapshots @ abc]$
Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: CPU:0 
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]:       MC4_ADDR: 0x0000000000010f40

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the 
Probe Filter directory.

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN

私の知る限り、これは一度だけ起こったことです。ログで他のハードウェア エラーを検索しても、この 1 つのインシデント以外は何も見つかりません。

私が上で参照したフォーラムの投稿は、基本的に、一度だけ発生し、致命的な問題を引き起こさなかった場合は、心配する必要はないとユーザーに伝えるだけで終わります。これは、変数が多すぎる(つまり、9 月 8 日の午前 2 時 50 分に何が実行されていたのか?)と私が同僚から受けたアドバイスと同じです。

しかし、このユーザーは、システムに何か問題がないことを確かめたいと考えています。上記のエラーは何を示しているか、または何に関連しているか? 「プローブ フィルター ディレクトリ」とは何ですか? マシンに差し迫った破滅の兆候がないことをユーザーに安心させるために、どのようなテストを実行すればよいでしょうか?

このマシンの Linux ディストリビューションは、Red Hat Enterprise Linux Server リリース 6.4 (Santiago) です。

答え1

正確な答えはありませんが、いくつかはよく知っています。プローブ フィルター ディレクトリが何であるかはわかりませんが、CptSupermrkt が上で説明しました。

PCI では、ノースブリッジがメモリとプロセッサに接続されます。ECC エラーは DRAM に関連しています。各ワードとともにエラー訂正コード ビットが保存されます。読み取り時にチェックされ、書き込み時に更新されます。ECC エラーは訂正可能または訂正不可能であり、書き込まれたビットを使用してエラーを訂正できるかどうかを示します。訂正不可能は、永続的なハードウェア エラーがあることを示すものではありません。これは、DRAM が故障し始めたときに発生する可能性があります。

これらすべてを考慮すると、これは一時的なエラーのようです。完全なメモリ テストを試してみることもできますが、何も見つからない可能性があります。DRAM に障害が発生した場合、唯一の修正方法は交換することです。

関連情報