あるユーザーから、自分のサーバーの1つで以下のエラーが発生し、深刻な問題が起きているのではないかと心配するメールを受け取りました。問題は、以下のエラーが全て続けるしかない。私は普段はまともなGoogleユーザーだと思っているが、今回の場合は1つユーザーが「プローブ フィルター ディレクトリ」に関してこのエラーに遭遇したその他のインシデント:
[1044 snapshots @ abc]$
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: CPU:0
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: MC4_ADDR: 0x0000000000010f40
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the
Probe Filter directory.
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
私の知る限り、これは一度だけ起こったことです。ログで他のハードウェア エラーを検索しても、この 1 つのインシデント以外は何も見つかりません。
私が上で参照したフォーラムの投稿は、基本的に、一度だけ発生し、致命的な問題を引き起こさなかった場合は、心配する必要はないとユーザーに伝えるだけで終わります。これは、変数が多すぎる(つまり、9 月 8 日の午前 2 時 50 分に何が実行されていたのか?)と私が同僚から受けたアドバイスと同じです。
しかし、このユーザーは、システムに何か問題がないことを確かめたいと考えています。上記のエラーは何を示しているか、または何に関連しているか? 「プローブ フィルター ディレクトリ」とは何ですか? マシンに差し迫った破滅の兆候がないことをユーザーに安心させるために、どのようなテストを実行すればよいでしょうか?
このマシンの Linux ディストリビューションは、Red Hat Enterprise Linux Server リリース 6.4 (Santiago) です。
答え1
正確な答えはありませんが、いくつかはよく知っています。プローブ フィルター ディレクトリが何であるかはわかりませんが、CptSupermrkt が上で説明しました。
PCI では、ノースブリッジがメモリとプロセッサに接続されます。ECC エラーは DRAM に関連しています。各ワードとともにエラー訂正コード ビットが保存されます。読み取り時にチェックされ、書き込み時に更新されます。ECC エラーは訂正可能または訂正不可能であり、書き込まれたビットを使用してエラーを訂正できるかどうかを示します。訂正不可能は、永続的なハードウェア エラーがあることを示すものではありません。これは、DRAM が故障し始めたときに発生する可能性があります。
これらすべてを考慮すると、これは一時的なエラーのようです。完全なメモリ テストを試してみることもできますが、何も見つからない可能性があります。DRAM に障害が発生した場合、唯一の修正方法は交換することです。