Сбой сервера Ubuntu 10.04

Сбой сервера Ubuntu 10.04

Я использую Ubuntu 10.04 (x64) в качестве веб/MySQL-сервера.

Сервер перестал отвечать на SSH, Ping, HTTP и т. д., и технический специалист, имеющий физический доступ к машине, прислал мне этот снимок экрана:

http://img442.imageshack.us/img442/389/img00062201012211332.jpg

с подключенного монитора до того, как он перезагрузился (и ситуация была исправлена). Я не уверен, в каком журнале хранится эта информация, так как я не могу найти текст после проверки журналов после перезагрузки.

Может ли кто-нибудь помочь мне расследовать произошедшее и попытаться гарантировать, что это не повторится?

Спасибо

решение1

Паника ядра может возникнуть по ряду причин, обычно это либо проблема модуля (драйвер, который не подходит для вашего оборудования), либо проблема с оборудованием.

В вашем случае, если проблема не повторяется, то, скорее всего, она имеет аппаратное происхождение.
И это может быть память (плохую память не всегда легко определить).

Я бы загрузил сервер и выбрал во время экрана grub (сразу после загрузки) опцию "memtest86". Тест памяти должен работать непрерывно несколько дней.
Если через 3 дня не будет ошибок, памятьможет бытьхорошо.

решение2

Если у вас нет другой информации (как сказал ring0, она не будет сохранена где-либо на диске), то вы больше ничего не можете сделать.

Если вы хотите действовать на опережение или если это происходит случайным образом еще несколько раз, вы можете попробовать LKCD, чтобы записать дамп ядра. http://lkcd.sourceforge.net/

Я не знаю, сколько у вас оперативной памяти, но даже попытка запустить memtest86 на пару часов может быть полезной. Очевидно, что он не выловит действительно редкие ошибки.

Я также предлагаю вам добавить kernel.panic=5 /etc/sysctl.conf. Это заставит сервер автоматически перезагрузиться через 5 секунд, если ядро ​​снова зависнет.

Наконец, я думаю, что всегда нужно иметь какой-то способ управления на случай отключения. Затем вы можете войти в систему, скопировать сообщение и перезапустить сервер самостоятельно.

решение3

Я видел такие сбои, когда серверы работали со слишком высокой нагрузкой/слишком большим количеством процессов в течение длительного периода времени. Чтобы в целом проверить, что происходит на вашей машине, я рекомендую установить на вашем сервере фреймворк для мониторинга, такой как munin, — это поможет анализу в случае повторения этого.

решение4

Это может показаться немного странным, но у меня были проблемы с Ubuntu x64, работающей на сервере, который был 64-битным сервером. У меня были те же самые ошибки и последующие проблемы «зависания» очень часто. Он пытался удалить драйверы, добавить драйверы обратно, потратил часы на поиск ошибок, и ничего не помогало. Я, наконец, решил эту проблему, установив 32-битную версию Ubuntu. Это сработало, мне не нужна была 64-битная версия, поэтому я оставил ее в покое. Это не лучшее решение, если вам нужна 64-битная версия, но это может дать вам возможность немного поразмыслить. Может быть, посмотрите сервер, на котором вы работаете Ubuntu, и посмотрите, есть ли известные проблемы совместимости вокруг него. Удачи.

Связанный контент