Диагностика причины сбоя сервера

Диагностика причины сбоя сервера

У меня есть пара веб-приложений Asp.Net, работающих на Windows Server 2008 R2 VPS. Мы используем этот VPS уже много лет. За последние несколько месяцев наши приложения стали выходить из строя на 30-45 минут. Это не происходит периодически и не происходит в одно и то же время суток. Это должно было произойти, может быть, 4 или 5 раз за последние 2 месяца. Наша аналитика не сообщает о большом количестве пользователей одновременно онлайн. У нас было больше пользователей онлайн, и никаких проблем не было.

Во время простоя мы не можем RDP в VPS. Мониторинг new relic показывает нулевую активность на любом фронте. После того, как VPS снова подключен, приложения работают нормально. Даже после того, как VPS снова подключен, nwe relic не показывает никаких новых записей за этот период времени. Просмотрщик событий также не показывает никаких записей во время простоя. У нас есть обычные записи в журналах System/Security/Application, почти по одной в минуту, до начала простоя. И следующая запись начинается после окончания простоя.

Похоже, что на это время наш VPS был переведен в спящий режим. Я проверил просмотрщик событий на наличие событий с идентификаторами 6005,6008,6009,6013,1072,1074,1076. Я читал в различных интернет-постах, что эти идентификаторы событий могут помочь идентифицировать запланированные/неожиданные отключения/перезагрузки. Я не нашел ни одного для этого временного диапазона.

Что еще я могу сделать, чтобы определить, почему это происходит, и предотвратить это?

РЕДАКТИРОВАТЬ

Этот случай простоя был вызван перезагрузкой хостом физического сервера. Что касается предыдущих простоев, хост утверждает, что не был в этом замешан. Давайте посмотрим. В настоящее время я отмечаю пост @Greg как принятый ответ, поскольку до сих пор я не думал об этом.

решение1

Что еще можно сделать? Включить мониторинг работоспособности ASP.Net/пульс с интервалом в одну минуту. Если пульса нет, скорее всего, что-то внешнее для Windows/IIS/ASP.Net.

Скорее всего, причиной сбоя стал ваш поставщик услуг, а не дефект операционной системы, который, скорее всего, не окажет никакого влияния при использовании нескольких серверов на нескольких хостах/сетях.

Если у вас нет никаких соглашений о показателях, измерениях или доступности, то вы вряд ли добьетесь успеха, пытаясь получить ответ с помощью обратного проектирования, заставив клиентскую ОС решать проблемы хостов или сети провайдера VPS.

К сожалению, перемещение приложений в «облако» не может исправить сломанную или нефункциональную архитектуру или навыки заключения контрактов.

решение2

Обратитесь к своему провайдеру vps. Это может быть аппаратный сбой, проблема с сетью или что-то еще. Потеря удаленного подключения говорит о том, что проблема находится вне вашего приложения и, вероятно, вне ОС. Ваш поставщик должен помочь вам диагностировать проблемы... Если нет, я думаю, у вас все равно будет ответ на вопрос, что делать с проблемами надежности.

Связанный контент