Диагностика сбоев сервера... Существуют ли какие-либо программы типа «черный ящик»?

Question 1

это время, когда запланированы задания cron.daily, поэтому я бы посмотрел в /etc/cron.daily или weekly или month как на первые подозреваемые

вы можете установить поверх, который будет записывать снимок процессов каждые 10 минут

в качестве альтернативы вы можете установить psacct и использовать accton и lastcomm, чтобы увидеть, что выполнялось

Также можно включить аудит, см. Auditd(8)

Answer

это время, когда запланированы задания cron.daily, поэтому я бы посмотрел в /etc/cron.daily или weekly или month как на первые подозреваемые

вы можете установить поверх, который будет записывать снимок процессов каждые 10 минут

в качестве альтернативы вы можете установить psacct и использовать accton и lastcomm, чтобы увидеть, что выполнялось

Также можно включить аудит, см. Auditd(8)

Question 2

Вы можете включить функцию дампов ядра, которая будет копировать системную память в файл в случае сбоя сервера.

Следующая проблема — что делать с файлом coredump... Если у вас есть кто-то, кто разбирается в gdb, он, возможно, сможет что-то с этим сделать... или вы можете использовать команду «strings», чтобы выгрузить весь текст из файла coredump, и, возможно, вам удастся что-то найти.

Answer

Вы можете включить функцию дампов ядра, которая будет копировать системную память в файл в случае сбоя сервера.

Следующая проблема — что делать с файлом coredump... Если у вас есть кто-то, кто разбирается в gdb, он, возможно, сможет что-то с этим сделать... или вы можете использовать команду «strings», чтобы выгрузить весь текст из файла coredump, и, возможно, вам удастся что-то найти.

Question 3

войдите в систему на другом компьютере с хорошим подключением, запустите screen, подключитесь к серверу по ssh и просмотрите kern.log, daemon.log, syslog, сообщения в отдельных окнах screen. (control-A, c для создания нового окна, Control-A,D для отсоединения, screen -r для возобновления)

Когда сервер снова заблокируется, в сеансе экрана у вас должна быть оставшаяся часть журналов, даже если они не были правильно сброшены на диск в момент зависания машины.

Если вы подозреваете панику ядра или упс

kernel.panic=5 kernel.panic_on_oops=5

в вашем файле sysctl.conf или эквивалентном ему, подождет 5 секунд, возможно, позволяя дискам очиститься, а затем перезагрузится.

Answer

войдите в систему на другом компьютере с хорошим подключением, запустите screen, подключитесь к серверу по ssh и просмотрите kern.log, daemon.log, syslog, сообщения в отдельных окнах screen. (control-A, c для создания нового окна, Control-A,D для отсоединения, screen -r для возобновления)

Когда сервер снова заблокируется, в сеансе экрана у вас должна быть оставшаяся часть журналов, даже если они не были правильно сброшены на диск в момент зависания машины.

Если вы подозреваете панику ядра или упс

kernel.panic=5 kernel.panic_on_oops=5

в вашем файле sysctl.conf или эквивалентном ему, подождет 5 секунд, возможно, позволяя дискам очиститься, а затем перезагрузится.

Диагностика сбоев сервера... Существуют ли какие-либо программы типа «черный ящик»?

решение1

решение2

решение3

Связанный контент