Недавно у нас произошел сбой питания на всей территории (истощились ИБП). После того, как все восстановилось, мы наблюдаем странное поведение сети.
Похоже, что сервер может пинговать только одну машину в сети, и ни одна из сетевых папок недоступна. (эта машина изменится, если мы перезагрузим рабочие станции)
Текущее состояние:
- Сервер может пинговаться и принимать пинг с одной машины в сети.
- Имя хоста DNS преобразуется в правильный IP-адрес при PING (со всех машин)
- Общие сетевые ресурсы (NFS/SMB) недоступны для всех машин (даже с того компьютера, который может пинговаться)
- Службы NFS и SMB работают
- Доступ к серверу по SSH возможен с любой машины, которая в данный момент может выполнить пинг.
- Сервер можетнетпинговать промежуточные коммутаторы?
- Рабочие станции могут пинговать все промежуточное оборудование
ОКРУЖАЮЩАЯ СРЕДА:
DNS/Auth - Active Directory (все статические IP-адреса / без DHCP) Debian 6.3.0 (подключено 4 связанными портами 40gE, все работают) Сервер <-> Коммутатор Mellanox sn2100 <-> Mellanox Fiber 10G (sn1016) <-> Рабочие станции
Рабочие станции с разными ОС (OSX 10.14 и выше, Windows 10, CentOS 7)
Подозревать:
В настоящее время имеются подозрения на наличие какой-то проблемы с маршрутизацией на sn2100, но другие устройства маршрутизируют через него данные без проблем.
решение1
Так@пользователь1686это был правильный путь отладки.
Решение:
После начала разъединения связанного соединения в коммутаторе Mellanox я заметил, что настройки режима LAG были перепутаны для каждого порта. Один был серым, один был в статическом режиме, а остальные были правильными. Это было либо повреждено во время сбоя питания, либо система откатилась в состояние, когда LAG создавался.
Я удалил все порты из LAG, обновил режим LAG для каждого из них, сделав его активным по протоколу LACP, а затем заново создал LAG.
Машины мгновенно могли пинговать сервер, и для восстановления работы общих ресурсов NFS требовалось только перемонтирование.