¿Errores recurrentes en Exchange 2003 que provocan indisponibilidad y reinicio?

¿Errores recurrentes en Exchange 2003 que provocan indisponibilidad y reinicio?

Después de reconstruir nuestro servidor Exchange 2003 debido a una falla en el disco duro, Exchange deja de estar disponible después de un período de tiempo desconocido. La gran mayoría de los usuarios están ahora en Outlook 2007 (unos pocos todavía en 2003).

Subimos el nivel de registro y ahora hemos notado estas advertencias; Los he estado rastreando y parece que ocurren aproximadamente cada 15 minutos (no estoy seguro si el período de tiempo tiene algo que ver con eso)

Estas advertencias a veces provocan errores y ayer reiniciamos el servidor dos veces; alrededor de las 8:30 am y las 2:30 pm (aproximadamente 6 horas; nuevamente, no estoy seguro si el tiempo tiene algo que ver con eso)

Procesar INETINFO.EXE (PID=1300). DSAccess necesita cerrar una conexión con el controlador de dominio AD-server.domain.com debido al error 0x80040951.

Procese STORE.EXE (PID=2936). DSAccess necesita cerrar una conexión con el controlador de dominio AD-server.domain.com debido al error 0x80040952.

Procesar MAD.EXE (PID=2160). DSAccess necesita cerrar una conexión con el controlador de dominio AD-server.domain.com debido al error 0x80040952.

Cada una de las 3 advertencias se repite cada 15 minutos aproximadamente.

Los errores que nos preceden al reiniciar Exchange se ven así

La vinculación LDAP no tuvo éxito en el directorio AD-server.domain.com para el nombre distintivo ''. El directorio devolvió el error: [0x51] Servidor inactivo. DC=dominio,DC=com

No estamos seguros de si las advertencias tienen algo que ver con los errores (y, en última instancia, con el reinicio que sigue). Según el horario anterior, pensamos que volvería a suceder alrededor de las 8:30 p. m. y las 2:30 a. m., pero nada. No hay errores desde el reinicio alrededor de las 2:30 p. m. de ayer.

Debo señalar que Exchange está activado DMZ 1y AD, DMZ 3pero el firewall (Sonicwall) está completamente abierto entre las 2 DMZ.

Exchange solía estar en su propio servidor, pero por recomendación de algunos técnicos, desde entonces lo trasladamos a una máquina virtual. El servidor 2008 es el host, el servidor VMWare 2 para la máquina virtual y Windows 2003 que ejecuta 2003 Exchange.

Realmente no sabemos qué está pasando. Reiniciamos el firewall, desactivamos el filtrado de contenido/AV, reiniciamos AD y Exchange.

Estamos considerando trasladar Exchange a la misma DMZ que AD. Todas las personas con las que hablamos lo recomiendan, pero todavía no podemos hacerlo. La mejor parte es que, hasta que tuvimos que reconstruir Exchange, funcionamos perfectamente bien, el mismo firewall, la misma configuración DMZ, las mismas versiones del sistema operativo (excepto la VM) durante más de 3 años. Sólo después de que perdimos Exchange y tuvimos que reconstruirlo hemos tenido estos problemas.

¿Algunas ideas?

--- notas agregadas 23/11/11 11:11 am EST --- @ Even Anderson

No estaba del todo seguro de cómo lograr lo que me pedías que hiciera; Normalmente no olfateamos el tráfico aquí...

Entonces recordé que nuestro Sonicwall NSA tiene capacidades integradas de captura de paquetes.

Así que ingresé el servidor Exchange y los servidores AD, hice que enviara las capturas a un servidor FTP en mi PC y ahora puedo ver el tráfico entre Exchange y AD. Me envía archivos .cap que estoy viendo con Wireshark.

El "problema" ocurrió esta mañana entre la 1 y las 3 a. m., y nuevamente esta mañana alrededor de las 9 a. m. Reinicié cuando llegué alrededor de las 6 a. m. solo para estar seguro y reinicié nuevamente cuando el intercambio dejó de responder alrededor de las 9:30 a. m.

Al filtrar por protocolo LDAP, veo las siguientes entradas:

SASL GSS-API Inegrity: se parecen a las búsquedas reales y cada searchRequest tiene una searchResEntry

bindRequest y bindResponse (parecen 1 a 1), por lo que se ve bien.

Veo una solicitud de desvinculación de Exchange a AD que parece no tener respuesta; aunque no estoy seguro de si debería tener una respuesta.

No veo nada con una sincronización real.

Sigo buscando: ejecutar la captura no parece afectar el rendimiento en ninguna parte, así que espero continuar ejecutándola hasta que se produzcan errores y Exchange deje de responder.

Respuesta1

El error 0x80040951 es un error "LDAP_SERVER_DOWN" y el 0x80040952 es un "LDAP_LOCAL_ERROR". Ambos me hacen pensar que la computadora con Exchange Server no puede comunicarse con el DC a través de LDAP.

Empezaría husmeando el tráfico entre Exchange y el DC. Si puede, utilice un puerto SPAN u otro método para conectar una computadora rastreadora dedicada entre el DC y Exchange para que su detección a largo plazo pueda ejecutarse sin causar un problema de rendimiento en ninguno de los servidores. Podría utilizar un filtro de captura para aislar el tráfico de las conversaciones entre Exchange Server y los DC. Si puede, utilice dos computadoras para detectar y colocar una entre cada servidor y el dispositivo firewall que los aísla.

Sin ver lo que sucede con el tráfico real de la red, me resulta difícil hacer más recomendaciones. Si terminas con algunas capturas del fallo "en el acto", puedes publicarlas aquí y las echaremos un vistazo. Según lo que estoy viendo hasta ahora, espero que descubra que la computadora con Exchange Server sincroniza repetidamente el puerto LDAP en el DC y no obtiene respuesta. Si tiene la suerte de poder capturar desde ambos "lados" del dispositivo firewall, apuesto a que verá tráfico que no atraviesa el firewall. Tu problema ciertamente tiene esa sensación...

información relacionada