Сервер не может пинговать более одной машины после сбоя питания. (Все сетевые ресурсы недоступны)

Сервер не может пинговать более одной машины после сбоя питания. (Все сетевые ресурсы недоступны)

Недавно у нас произошел сбой питания на всей территории (истощились ИБП). После того, как все восстановилось, мы наблюдаем странное поведение сети.

Похоже, что сервер может пинговать только одну машину в сети, и ни одна из сетевых папок недоступна. (эта машина изменится, если мы перезагрузим рабочие станции)

Текущее состояние:

  • Сервер может пинговаться и принимать пинг с одной машины в сети.
  • Имя хоста DNS преобразуется в правильный IP-адрес при PING (со всех машин)
  • Общие сетевые ресурсы (NFS/SMB) недоступны для всех машин (даже с того компьютера, который может пинговаться)
  • Службы NFS и SMB работают
  • Доступ к серверу по SSH возможен с любой машины, которая в данный момент может выполнить пинг.
  • Сервер можетнетпинговать промежуточные коммутаторы?
  • Рабочие станции могут пинговать все промежуточное оборудование

ОКРУЖАЮЩАЯ СРЕДА:

DNS/Auth - Active Directory (все статические IP-адреса / без DHCP) Debian 6.3.0 (подключено 4 связанными портами 40gE, все работают) Сервер <-> Коммутатор Mellanox sn2100 <-> Mellanox Fiber 10G (sn1016) <-> Рабочие станции

Рабочие станции с разными ОС (OSX 10.14 и выше, Windows 10, CentOS 7)

Подозревать:

В настоящее время имеются подозрения на наличие какой-то проблемы с маршрутизацией на sn2100, но другие устройства маршрутизируют через него данные без проблем.

решение1

Так@пользователь1686это был правильный путь отладки.

Решение:

После начала разъединения связанного соединения в коммутаторе Mellanox я заметил, что настройки режима LAG были перепутаны для каждого порта. Один был серым, один был в статическом режиме, а остальные были правильными. Это было либо повреждено во время сбоя питания, либо система откатилась в состояние, когда LAG создавался.

Я удалил все порты из LAG, обновил режим LAG для каждого из них, сделав его активным по протоколу LACP, а затем заново создал LAG.

Машины мгновенно могли пинговать сервер, и для восстановления работы общих ресурсов NFS требовалось только перемонтирование.

Связанный контент