나는 자신의 서버 중 하나에서 다음과 같은 오류가 발생하면 심각한 문제가 있음을 걱정하는 사용자로부터 이메일을 받았습니다. 문제는 아래 오류가모두내가 계속해야한다는 것입니다. 나는 일반적으로 나 자신을 괜찮은 Google 직원이라고 생각하지만 이 경우에는하나"프로브 필터 디렉터리"와 관련하여 사용자에게 이 오류가 발생한 다른 사건:
[1044 snapshots @ abc]$
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: CPU:0
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: MC4_ADDR: 0x0000000000010f40
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the
Probe Filter directory.
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
내가 알 수 있는 바에 따르면 이런 일은 단 한 번만 일어났습니다. 다른 하드웨어 오류에 대한 로그를 조사해 보면 이 한 가지 사건 외에는 아무 것도 나오지 않습니다.
위에서 언급한 포럼 게시물은 기본적으로 사용자에게 한 번만 발생하고 치명적인 문제가 발생하지 않은 경우 걱정하지 말라고 말하는 것으로 끝납니다. 이는 변수가 너무 많다고 언급한 동료들(예: 9월 8일 오전 2시 50분에 실행되고 있던 프로그램?)과 동일한 조언입니다.
그러나 이 사용자는 시스템에 문제가 없는지 확인하고 싶어합니다. 위의 오류는 무엇을 나타내거나 관련될 수 있습니까? "프로브 필터 디렉터리"란 무엇입니까? 이로 인해 컴퓨터에 임박한 파멸이 표시되지 않도록 사용자를 안심시키기 위해 어떤 테스트를 실행할 수 있습니까?
머신의 Linux 배포판은 Red Hat Enterprise Linux Server 릴리스 6.4(Santiago)입니다.
답변1
정확한 답은 없지만, 이 중 일부는 익숙합니다. Probe Filter 디렉터리가 무엇인지 모르지만 CptSupermrkt가 위에서 설명했습니다.
PCI에서 노스브리지는 메모리와 프로세서에 연결됩니다. ECC 오류는 DRAM과 관련이 있습니다. 각 단어와 함께 저장된 오류 수정 코드 비트가 있습니다. 읽기 시 업데이트된 쓰기 시 확인됩니다. ECC 오류는 수정 가능하거나 수정 불가능하며, 이는 기록된 비트를 사용하여 오류를 수정할 수 있음을 나타냅니다. 수정 불가능은 영구적인 하드웨어 오류가 있음을 의미하지 않습니다. DRAM이 고장나기 시작하면 이런 일이 발생할 수 있습니다.
모든 점을 고려하면 이는 일시적인 오류처럼 보입니다. 완전한 기억력 테스트를 시도해 볼 수도 있지만 아무 것도 찾을 수 없을 것입니다. DRAM에 오류가 발생한 경우 유일한 수정 조치는 DRAM을 교체하는 것입니다.