Я получил письмо от пользователя, который обеспокоен тем, что следующие ошибки на одном из его серверов указывают на серьезную проблему. Проблема в том, что ошибки нижевсечто мне нужно продолжать. Обычно я считаю себя порядочным гуглером, но в этом случае я могу найти толькоодиндругой инцидент, когда пользователи столкнулись с этой ошибкой, касающейся «Probe Filter directory»:
[1044 snapshots @ abc]$
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: CPU:0
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: MC4_ADDR: 0x0000000000010f40
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the
Probe Filter directory.
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
Насколько я могу судить, это произошло только один раз. Поиск других ошибок оборудования в журналах не выявил ничего, кроме этого инцидента.
Форумный пост, на который я ссылаюсь выше, заканчивается тем, что пользователю просто говорят не беспокоиться об этом, если это произошло только один раз и не вызвало никаких фатальных проблем. Это тот же совет, который я получил от своих коллег, которые также упомянули, что слишком много переменных (например, что работало в 2:50 утра 8 сентября?).
Однако этот пользователь хочет быть уверен, что с его системой все в порядке. На что могут указывать или с чем могут быть связаны указанные выше ошибки? Что такое «каталог фильтра зонда»? Какие тесты я могу запустить, чтобы успокоить пользователя, что это не сигнализирует о надвигающейся гибели его машины?
На машине установлен дистрибутив Linux — Red Hat Enterprise Linux Server версии 6.4 (Santiago).
решение1
У меня нет точного ответа, но кое-что из этого знакомо. Я не знаю, что такое каталог Probe Filter, но CptSupermrkt объяснил это выше.
В PCI северный мост подключается к памяти и процессору. Ошибки ECC связаны с DRAM. Биты кода коррекции ошибок хранятся вместе с каждым словом. При чтении они проверяются, при записи они обновляются. Ошибки ECC бывают исправимыми и неисправимыми, что указывает на возможность исправления ошибки с помощью записанных битов. Неисправимость не означает, что есть постоянная аппаратная ошибка. Это может произойти, когда DRAM начинает выходить из строя.
Учитывая все это, это выглядит как временная ошибка. Вы можете попробовать провести полный тест памяти, но вряд ли это что-то обнаружит. Если DRAM вышел из строя, единственным корректирующим действием будет его замена.