Повторяющиеся ошибки в Exchange 2003 приводят к недоступности и перезагрузке?

Повторяющиеся ошибки в Exchange 2003 приводят к недоступности и перезагрузке?

После перестройки нашего сервера Exchange 2003 из-за сбоя жесткого диска, Exchange становится недоступным через неизвестное количество времени. Подавляющее большинство пользователей теперь используют Outlook 2007 (несколько все еще используют 2003).

Мы повысили уровень ведения журнала и сейчас заметили эти предупреждения. Я отслеживал их, и похоже, что они появляются каждые 15 минут или около того (не уверен, имеет ли это какое-то отношение к временным рамкам).

Эти предупреждения иногда приводят к ошибкам, и вчера мы дважды перезагрузили сервер: около 8:30 утра и 14:30 (около 6 часов — опять же, не уверен, имеет ли это какое-либо отношение ко времени).

Процесс INETINFO.EXE (PID=1300). DSAccess необходимо закрыть соединение с контроллером домена AD-server.domain.com из-за ошибки 0x80040951.

Процесс STORE.EXE (PID=2936). DSAccess необходимо закрыть соединение с контроллером домена AD-server.domain.com из-за ошибки 0x80040952.

Процесс MAD.EXE (PID=2160). DSAccess необходимо закрыть соединение с контроллером домена AD-server.domain.com из-за ошибки 0x80040952.

каждое из 3 предупреждений повторяется примерно каждые 15 минут.

Ошибки, которые предшествуют перезагрузке Exchange, выглядят так:

LDAP Bind не удалось выполнить в каталоге AD-server.domain.com для отличительного имени ''. Каталог вернул ошибку:[0x51] Сервер не работает. DC=domain,DC=com

Мы не уверены, связаны ли предупреждения с ошибками (и в конечном итоге с последующей перезагрузкой). По времени выше мы думали, что это повторится около 8:30 вечера и 2:30 ночи, но ничего. Никаких ошибок с момента перезагрузки около 2:30 дня вчера.

Должен отметить, что Exchange DMZ 1и AD включены, DMZ 3но межсетевой экран (Sonicwall) полностью открыт между двумя DMZ.

Раньше Exchange работал на собственном сервере, но по рекомендации некоторых технических специалистов мы перенесли его на виртуальную машину. Сервер 2008 является хостом, сервер VMWare 2 — для виртуальной машины, а Windows 2003 работает под управлением Exchange 2003.

Мы действительно в растерянности относительно того, что происходит. Мы перезагрузили брандмауэр, отключили AV / Content Filtering, перезагрузили AD и Exchange.

Мы рассматриваем возможность перемещения Exchange в ту же DMZ, что и AD. Все, с кем мы общались, рекомендуют это, но мы пока не можем этого сделать. Самое лучшее, что пока нам не пришлось перестраивать Exchange, мы работали отлично, тот же брандмауэр, та же настройка DMZ, те же версии ОС (кроме VM) в течение 3+ лет. Только после того, как мы потеряли Exchange и пришлось его перестраивать, у нас появились эти проблемы.

Есть идеи?

--- заметки добавлены 23.11.11 11:11 утра по восточному времени --- @ Even Anderson

Я не был до конца уверен, как сделать то, о чем вы меня просили; мы здесь обычно не отслеживаем дорожное движение...

Затем я вспомнил, что в Sonicwall АНБ есть встроенные возможности перехвата пакетов.

Итак, я ввел сервер обмена и серверы AD, заставил их отправлять захваты на FTP-сервер на моем ПК, и теперь я могу наблюдать за трафиком между обменом и AD. Он отправляет мне файлы .cap, которые я просматриваю с помощью Wireshark.

«Проблема» случилась сегодня утром между 1 и 3 часами ночи, а затем снова этим утром около 9 утра. Я перезагрузил, когда пришел около 6 утра, просто чтобы быть в безопасности, и перезагрузил снова, когда Exchange перестал отвечать около 9:30 утра.

Фильтруя по протоколу LDAP, я вижу следующие записи:

SASL GSS-API Inegrity - они выглядят как реальные поиски, и каждый searchRequest имеет searchResEntry

bindRequest и bindResponse — они выглядят как 1 к 1 — так что все выглядит нормально.

Я вижу некоторый unbindRequest от Exchange к AD, на который, похоже, нет ответа. Хотя я не уверен, должен ли он быть.

Я не вижу ничего, что содержало бы в себе настоящую SYNC.

Все еще ищу - запуск захвата, похоже, не влияет на производительность, поэтому я надеюсь продолжать его запускать до тех пор, пока не возникнут ошибки и Exchange не перестанет отвечать.

решение1

Ошибка 0x80040951 — это ошибка "LDAP_SERVER_DOWN", а 0x80040952 — это ошибка "LDAP_LOCAL_ERROR". Обе эти ошибки заставляют меня думать, что компьютер Exchange Server не может взаимодействовать с DC через LDAP.

Я бы начал с прослушивания трафика между Exchange и DC. Если можете, используйте порт SPAN или другой метод для «подключения» выделенного компьютера-сниффера между DC и Exchange, чтобы ваш долгосрочный сниффинг мог работать без проблем с производительностью на любом сервере. Вы можете использовать фильтр захвата для изоляции трафика в разговорах между Exchange Server и DC. Если можете, используйте два компьютера для прослушивания и «подключения» одного между каждым сервером и устройством брандмауэра, изолирующим их.

Не видя, что происходит с реальным сетевым трафиком, мне сложно давать дальнейшие рекомендации. Если у вас в итоге будут какие-то снимки сбоя "на месте", вы можете разместить их здесь, и мы посмотрим. Исходя из того, что я вижу на данный момент, я ожидаю, что вы обнаружите, что компьютер Exchange Server постоянно делает SYN для порта LDAP на DC и не получает ответа. Если вам повезет и вы сможете захватить трафик с обеих "сторон" устройства брандмауэра, я уверен, вы увидите трафик, который не проходит через брандмауэр. Ваша проблема, безусловно, имеет такое ощущение...

Связанный контент