최근 현장 전체에 정전(UPS 방전)이 발생했습니다. 모든 것이 다시 복구된 후 이상한 네트워킹 동작이 발생합니다.
서버는 네트워크에 있는 다른 컴퓨터 하나만 ping할 수 있고 네트워크 공유는 사용할 수 없는 것처럼 보입니다. (워크스테이션을 재부팅하면 이 머신이 변경됩니다)
현재 상태:
- 서버는 네트워크의 한 시스템에서 ping을 수행할 수 있습니다.
- DNS 호스트 이름은 PING에서 올바른 IP로 확인됩니다(모든 시스템에서).
- 모든 컴퓨터에서 서버 네트워크 공유(NFS/SMB)가 다운되었습니다(Ping할 수 있는 상자에서도 마찬가지).
- NFS 및 SMB 서비스가 실행 중입니다.
- 현재 ping을 할 수 있는 모든 머신에서 ssh를 통해 서버에 접근할 수 있습니다.
- 서버는~ 아니다ping 중개 스위치?
- 워크스테이션은 모든 중간 하드웨어를 ping할 수 있습니다.
환경:
DNS/Auth - Active Directory(모두 고정 IP/DHCP 없음) Debian 6.3.0(4개의 결합된 40gE로 연결됨) 서버 <-> Mellanox 스위치 sn2100 <-> Mellanox Fiber 10G(sn1016) <-> 워크스테이션
혼합 OS 워크스테이션(OSX 10.14 이상, Windows 10, CentOS 7)
의심하다:
현재 sn2100의 라우팅에 문제가 있는 것으로 의심되지만 다른 장치에서는 이를 통해 문제가 발생하지 않습니다.
답변1
그래서@user1686그것이 올바른 디버그 경로였습니다.
해결책:
Mellanox 스위치에서 결합된 연결을 분리하기 시작한 후 LAG 모드 설정이 각 포트에 대해 모두 혼합되어 있음을 발견했습니다. 하나는 회색으로 표시되었고 하나는 정적 모드에 있었고 나머지는 정확했습니다. 이는 정전 중에 손상되었거나 시스템이 LAG가 구축되는 상태로 롤백되었습니다.
LAG에서 모든 포트를 제거하고 각 포트의 LAG 모드를 LACP 활성으로 업데이트한 다음 LAG를 다시 생성했습니다.
머신은 즉시 서버에 ping을 보낼 수 있으며 NFS 공유가 다시 작동하도록 다시 마운트하기만 하면 됩니다.