Erros recorrentes no Exchange 2003 levando à indisponibilidade e reinicialização?

Erros recorrentes no Exchange 2003 levando à indisponibilidade e reinicialização?

Após reconstruir nosso servidor Exchange 2003 devido a uma falha no disco rígido, o Exchange fica indisponível após um período de tempo desconhecido. A grande maioria dos usuários está agora no Outlook 2007 (alguns ainda em 2003).

Aumentamos o nível de registro e notamos esses avisos agora; Eu os tenho rastreado e parece que eles ocorrem a cada 15 minutos ou mais (não tenho certeza se o período tem algo a ver com isso)

Esses avisos às vezes levam a erros e ontem reinicializamos o servidor duas vezes; por volta das 8h30 e 14h30 (cerca de 6 horas - novamente, não tenho certeza se o tempo tem algo a ver com isso)

Processar INETINFO.EXE (PID=1300). O DSAccess precisa fechar uma conexão com o controlador de domínio AD-server.domain.com devido ao erro 0x80040951.

Processar STORE.EXE (PID=2936). O DSAccess precisa fechar uma conexão com o controlador de domínio AD-server.domain.com devido ao erro 0x80040952.

Processar MAD.EXE (PID=2160). O DSAccess precisa fechar uma conexão com o controlador de domínio AD-server.domain.com devido ao erro 0x80040952.

cada um dos 3 avisos ocorre novamente a cada 15 minutos ou mais.

Os erros que nos precedem ao reiniciar o Exchange são semelhantes

A ligação LDAP não teve êxito no diretório AD-server.domain.com para o nome distinto ''. Erro retornado no diretório:[0x51] Servidor inativo. DC=domínio,DC=com

Não temos certeza se os avisos têm algo a ver com os erros (e, em última análise, com a reinicialização que se segue). Pelo horário acima, pensamos que isso aconteceria novamente por volta das 20h30 e 2h30, mas nada. Nenhum erro desde a reinicialização por volta das 14h30 de ontem.

Devo observar que o Exchange está ativado DMZ 1e o AD está ativado, DMZ 3mas o firewall (Sonicwall) está completamente aberto entre os 2 DMZs.

O Exchange costumava estar em seu próprio servidor, mas por recomendação de alguns técnicos, desde então o transferimos para uma VM. O servidor 2008 é o host, o servidor VMWare 2 para a VM e o Windows 2003 executando o 2003 Exchange.

Estamos realmente sem saber o que está acontecendo. Reinicializamos o firewall, desativamos a filtragem AV/Conteúdo e reinicializamos o AD e o Exchange.

Estamos considerando mover o Exchange para a mesma DMZ do AD. Todos com quem falamos recomendam isso, mas ainda não podemos fazer isso. A melhor parte é que, até termos que reconstruir o Exchange, rodamos perfeitamente bem, o mesmo firewall, a mesma configuração DMZ, as mesmas versões de sistema operacional (exceto a VM) por mais de 3 anos. Somente depois que perdemos o Exchange e tivemos que reconstruí-lo é que tivemos esses problemas.

Alguma ideia?

--- notas adicionadas 23/11/11 11h11 EST --- @ Even Anderson

Eu não tinha certeza de como realizar o que você estava me pedindo; normalmente não farejamos trânsito aqui...

Então lembrei que nosso Sonicwall NSA possui recursos integrados de captura de pacotes.

Então inseri o servidor Exchange e os servidores AD, enviei as capturas para um servidor FTP no meu PC e agora posso observar o tráfego entre o Exchange e o AD. Ele me envia arquivos .cap que estou visualizando com o Wireshark.

O "problema" aconteceu esta manhã entre 1h e 3h, e novamente esta manhã por volta das 9h. Reiniciei quando cheguei por volta das 6h, apenas por segurança, e reiniciei novamente quando o Exchange parou de responder por volta das 9h30.

Filtrando pelo protocolo LDAP, estou vendo as seguintes entradas:

SASL GSS-API Inegrity - parecem pesquisas reais e cada searchRequest tem um searchResEntry

bindRequest e bindResponse - parecem 1 para 1 - então parece bom.

Estou vendo alguns unbindRequest do Exchange para o AD com o que parece não haver resposta - não tenho certeza se deveria ter uma resposta.

Não estou vendo nada com um SYNC real.

Ainda procurando - A execução da captura não parece afetar o desempenho em nenhum lugar, então espero continuar a executá-la até que os erros ocorram e a troca pare de responder.

Responder1

O erro 0x80040951 é um erro "LDAP_SERVER_DOWN" e o 0x80040952 é um "LDAP_LOCAL_ERROR". Ambos me fazem pensar que o computador do Exchange Server está ficando incapaz de se comunicar com o controlador de domínio via LDAP.

Eu começaria farejando o tráfego entre o Exchange e o DC. Se possível, use uma porta SPAN ou outro método para "tee" em um computador sniffer dedicado entre o DC e o Exchange, para que seu sniffing de longo prazo possa ser executado sem causar problemas de desempenho em qualquer um dos servidores. Você poderia usar um filtro de captura para isolar o tráfego das conversas entre o Exchange Server e os DCs. Se você puder, use dois computadores para detectar e "marcar" um entre cada servidor e o dispositivo de firewall que os isola.

Sem ver o que está acontecendo com o tráfego de rede real, é difícil fazer outras recomendações. Se você conseguir algumas capturas da falha "em flagrante", você pode publicá-las aqui e daremos uma olhada. Com base no que estou vendo até agora, espero que você descubra o computador do Exchange Server sincronizando repetidamente para a porta LDAP no controlador de domínio e não obtendo resposta. Se você tiver sorte o suficiente para capturar de ambos os "lados" do dispositivo de firewall, aposto que verá tráfego que não está atravessando o firewall. Seu problema certamente tem essa sensação ...

informação relacionada