Устранение неполадок, связанных с загадочными зависаниями сервера Amazon EC2

Устранение неполадок, связанных с загадочными зависаниями сервера Amazon EC2

У меня есть экземпляр Amazon EC2, работающий под управлением LAMP на Ubuntu Natty/11.04. В трех отдельных случаях за последние несколько месяцев, два из которых за последние две недели, сервер просто... останавливался. Он перестает отвечать и перестает отвечать на попытки подключения (SSH или иным образом), но панель управления EC2 по-прежнему сообщает о его работе. Каждый раз мне приходилось перезагружать экземпляр через консоль, что приводило к потере данных.

Итак, теперь я пытаюсь диагностировать проблему, но у меня ничего не получается, и мне нужен совет, что еще проверить. В syslog нет ничего подозрительного — в каждом случае последнее, что происходило, это запуск munin своего обычного пятиминутного cronjob, хотя, поскольку я не знаю точно, когда машина перестала работать, я не могу сказать, насколько близок журнал cron к точке зависания. После этого машина просто не работала до момента перезапуска, после чего в syslog содержится то, что мне кажется обычным выводом dmesg.

Кажется, нет никакой корреляции между объемом трафика и временем этих заморозков. Каждый случай был далек от пиковых периодов трафика.

Что еще я могу посмотреть, чтобы попытаться выяснить, что является причиной этих проблем? В чем может быть проблема?

ДОПОЛНЕНИЕ: Сервер не был сильно загружен ни разу, когда он вышел из строя. Использование ЦП и памяти было в пределах нормы. На диске было много свободного места (десятки гигабайт). В журналах Apache или MySQL тоже нет ничего странного, они просто прекращают работу в это время. Это экземпляр со средней/высокой загрузкой ЦП.

решение1

Первое, что вам следует сделать, это настроить мониторинг, чтобы вы знали, когда сервер перестает отвечать. Вы можете сделать это с помощью pingdom и/или cloudwatch, чтобы проверить время безотказной работы сервиса и системную статистику, такую ​​как процессор и оперативная память. У обоих есть бесплатные планы для небольших аккаунтов. Это позволит вам получить представление о том, когда он выходит из строя, и должно облегчить поиск в журналах того, что происходило в тот момент. Обычно что-то подобное может быть вызвано тем, что системе не хватает ресурсов, вы не указываете размер вашего экземпляра, но что-то вроде микро может просто загружать 100% процессора простым заданием cron, и в этот момент сервер просто зависает.

Проверьте также другие журналы, помимо системного журнала, проверьте все журналы приложений, чтобы увидеть, не выдает ли какой-либо из них ошибку, прежде чем ваша система выйдет из строя.

решение2

Возможно, на хост-компьютере неисправна сетевая карта.

Связанный контент