Диагностика сбоев сервера... Существуют ли какие-либо программы типа «черный ящик»?

Диагностика сбоев сервера... Существуют ли какие-либо программы типа «черный ящик»?

Мой сервер RedHat падает каждые три недели или около того в 4:15 утра по воскресеньям. (ну, это было по воскресеньям, последние два были по четвергам в 4:15 утра). Глядя на логи (mysql, httpd, сообщения), нет никаких зацепок относительно причины. Они просто останавливаются.

Я запустил небольшой скрипт для снятия показаний памяти каждые 15 минут, и в этот раз он тоже останавливается (при нормальных показаниях).

Сервер находится у провайдера, поэтому я могу получить к нему доступ только через веб. Я использую Plesk.

Похоже, что это заданное задание или что-то еще, что вызывает проблему. Я ничего не вижу в crontab.

Так вот мой вопрос...было ли у кого-нибудь еще такое и может ли он дать совет? Если нет, то нет.

Кто-нибудь знает способ получить более подробную регистрацию, чем та, что предлагается файлом сообщений? Я думал о программе записи в стиле черного ящика или, может быть, о чем-то столь же простом, как опция где-то для повышения уровня отчетности в журнале сообщений.

Спасибо

решение1

это время, когда запланированы задания cron.daily, поэтому я бы посмотрел в /etc/cron.daily или weekly или month как на первые подозреваемые

вы можете установить поверх, который будет записывать снимок процессов каждые 10 минут

в качестве альтернативы вы можете установить psacct и использовать accton и lastcomm, чтобы увидеть, что выполнялось

Также можно включить аудит, см. Auditd(8)

решение2

Вы можете включить функцию дампов ядра, которая будет копировать системную память в файл в случае сбоя сервера.

Следующая проблема — что делать с файлом coredump... Если у вас есть кто-то, кто разбирается в gdb, он, возможно, сможет что-то с этим сделать... или вы можете использовать команду «strings», чтобы выгрузить весь текст из файла coredump, и, возможно, вам удастся что-то найти.

решение3

войдите в систему на другом компьютере с хорошим подключением, запустите screen, подключитесь к серверу по ssh и просмотрите kern.log, daemon.log, syslog, сообщения в отдельных окнах screen. (control-A, c для создания нового окна, Control-A,D для отсоединения, screen -r для возобновления)

Когда сервер снова заблокируется, в сеансе экрана у вас должна быть оставшаяся часть журналов, даже если они не были правильно сброшены на диск в момент зависания машины.

Если вы подозреваете панику ядра или упс

kernel.panic=5 kernel.panic_on_oops=5

в вашем файле sysctl.conf или эквивалентном ему, подождет 5 секунд, возможно, позволяя дискам очиститься, а затем перезагрузится.

Связанный контент