Мой сервер RedHat падает каждые три недели или около того в 4:15 утра по воскресеньям. (ну, это было по воскресеньям, последние два были по четвергам в 4:15 утра). Глядя на логи (mysql, httpd, сообщения), нет никаких зацепок относительно причины. Они просто останавливаются.
Я запустил небольшой скрипт для снятия показаний памяти каждые 15 минут, и в этот раз он тоже останавливается (при нормальных показаниях).
Сервер находится у провайдера, поэтому я могу получить к нему доступ только через веб. Я использую Plesk.
Похоже, что это заданное задание или что-то еще, что вызывает проблему. Я ничего не вижу в crontab.
Так вот мой вопрос...было ли у кого-нибудь еще такое и может ли он дать совет? Если нет, то нет.
Кто-нибудь знает способ получить более подробную регистрацию, чем та, что предлагается файлом сообщений? Я думал о программе записи в стиле черного ящика или, может быть, о чем-то столь же простом, как опция где-то для повышения уровня отчетности в журнале сообщений.
Спасибо
решение1
это время, когда запланированы задания cron.daily, поэтому я бы посмотрел в /etc/cron.daily или weekly или month как на первые подозреваемые
вы можете установить поверх, который будет записывать снимок процессов каждые 10 минут
в качестве альтернативы вы можете установить psacct и использовать accton и lastcomm, чтобы увидеть, что выполнялось
Также можно включить аудит, см. Auditd(8)
решение2
Вы можете включить функцию дампов ядра, которая будет копировать системную память в файл в случае сбоя сервера.
Следующая проблема — что делать с файлом coredump... Если у вас есть кто-то, кто разбирается в gdb, он, возможно, сможет что-то с этим сделать... или вы можете использовать команду «strings», чтобы выгрузить весь текст из файла coredump, и, возможно, вам удастся что-то найти.
решение3
войдите в систему на другом компьютере с хорошим подключением, запустите screen, подключитесь к серверу по ssh и просмотрите kern.log, daemon.log, syslog, сообщения в отдельных окнах screen. (control-A, c для создания нового окна, Control-A,D для отсоединения, screen -r для возобновления)
Когда сервер снова заблокируется, в сеансе экрана у вас должна быть оставшаяся часть журналов, даже если они не были правильно сброшены на диск в момент зависания машины.
Если вы подозреваете панику ядра или упс
kernel.panic=5 kernel.panic_on_oops=5
в вашем файле sysctl.conf или эквивалентном ему, подождет 5 секунд, возможно, позволяя дискам очиститься, а затем перезагрузится.