Diagnosticar por qué el servidor se cayó

Diagnosticar por qué el servidor se cayó

Tengo un par de aplicaciones web Asp.Net que ejecutan un VPS de Windows Server 2008 R2. Llevamos años usando este VPS. Desde los últimos meses, nuestras aplicaciones han estado inactivas durante 30 a 45 minutos. Esto no sucede periódicamente y no sucede a la misma hora del día. Esto debe haber sucedido quizás 4 o 5 veces en los últimos 2 meses. Nuestros análisis no reportan una gran cantidad de usuarios en línea simultáneamente. Hemos tenido más usuarios en línea y no hemos tenido problemas.

Durante el tiempo de inactividad, no podemos realizar RDP en el VPS. El nuevo monitoreo de reliquias muestra cero actividad en ningún frente. Una vez que el VPS vuelve a estar en línea, las aplicaciones funcionan normalmente. Incluso después de que el VPS vuelva a estar en línea, nwe relic no muestra ninguna entrada nueva para ese período de tiempo. El visor de eventos tampoco muestra entradas durante el período de inactividad. Tenemos las entradas habituales en los registros de Sistema/Seguridad/Aplicación, casi una por minuto, hasta el momento en que comenzó el tiempo de inactividad. Y la siguiente entrada comienza una vez finalizado el tiempo de inactividad.

Parece casi como si durante ese tiempo nuestro VPS hubiera sido puesto en suspensión. Revisé el visor de eventos en busca de eventos con identificadores 6005,6008,6009,6013,1072,1074,1076. Leí en varias publicaciones de Internet que estos identificadores de eventos pueden ayudar a identificar apagados/reinicios planificados/inesperados. No encontré ninguno para este rango de tiempo.

¿Qué más puedo hacer para identificar por qué sucede esto y evitar que suceda?

EDITAR

Este caso de tiempo de inactividad se debió a que el host reinició el servidor físico. A pesar de los tiempos de inactividad anteriores, el anfitrión afirma no haber estado involucrado. Vamos a ver. Actualmente estoy marcando la publicación de @Greg como respuesta aceptada, ya que era algo que no había considerado hacer hasta ahora.

Respuesta1

¿Qué más puedes hacer? Habilite ASP.Net Heath Monitoring/heartbeat en intervalos de un minuto. Si no hay un latido, lo más probable es que sea algo externo a Windows/IIS/ASP.Net.

Parece más probable que su proveedor de servicios haya causado la interrupción que un defecto del sistema operativo, lo que probablemente no tendría ningún impacto si utiliza varios servidores en varios hosts/redes.

Si no tiene ningún acuerdo de métricas, medidas o disponibilidad, no tendrá mucha suerte al intentar aplicar ingeniería inversa a una respuesta haciendo que el sistema operativo del cliente resuelva los problemas de los hosts o la red del proveedor VPS.

Desafortunadamente, mover aplicaciones a la "nube" no puede arreglar la arquitectura o las habilidades de contratación rotas o disfuncionales.

Respuesta2

Póngase en contacto con su proveedor de vps. Podría ser una falla de hardware, un problema de red o cualquier otra cosa. La pérdida de conectividad remota sugiere que el problema está fuera de su aplicación y probablemente fuera del sistema operativo. Su proveedor debería poder ayudarle a diagnosticar los problemas... Si no, creo que aún tendrá una respuesta sobre qué hacer con sus problemas de confiabilidad.

información relacionada