Полуслучайная потеря связи

Полуслучайная потеря связи

У меня возникли непонятные проблемы с сетью.

Для контекста, я работаю на кластере радиостанций — несколько станций в одном месте — и мы активно используем Интернет для доставки нашего аудиоконтента. Мы транслируем 3 радиопотока на наши онлайн-потоки, мы передаем два разных потока на две разные вышки, где звук транслируется по воздуху, получаем два аудиопотока (иногда 3) и отправляем один поток обратно к его источнику. Вся эта потоковая передача ведется 24/7, поэтому мы используем наш Интернет немного больше, чем среднестатистический парень. Мы никогда не прекращаем вещание — если только не теряем соединение.

Мы уже некоторое время страдаем от потери соединения, что является большой проблемой для профессиональной радиостанции. Мы звонили интернет-провайдеру за ответами и возвращались с пустыми руками после каждой попытки заставить их разобраться в проблеме.

Сначала я думал, что проблема в простой потере пакетов. Но потом я заметил, что потери соединения были только полуслучайными и что была какая-то закономерность. Каждая станция подключена к бесшумному датчику, который отправляет оповещения, если и когда станция отключается. Эти оповещения могут означать разные вещи; но для нас оповещения означали только прерывание нашего интернет-соединения. Чтобы устранить эту проблему, я использую информацию, собранную с двух станций, которые получают аудио из другого места. Оповещения отправляются, когда мы перестаем получать аудио от источника.

Во-первых, проблемы с подключением не полностью случайны, потому что, в большинстве случаев, прерывание подключения происходит только за 2 минуты до начала нового часа — 12:58, 4:58, 1:58. Я бы сказал, что проблемы с подключением происходят примерно за 2 минуты до начала нового часа по крайней мере в 90% случаев. Но мне нужно будет проверить, чтобы быть уверенным. Для меня потеря подключения за 2 минуты до начала часа — это уже само по себе странно, но это еще не все.

Перебои с подключением не происходят каждый час или даже в течение одного и того же часа каждый день. Время, в которое прерывается подключение, меняется каждый день. И что еще более странно, одна станция может столкнуться с сетевым прерыванием за 2 минуты до конца часа, в то время как другая станция не сталкивается с прерыванием. Фактически, хотя каждая станция теряет соединение за 2 минуты до нового часа, я не думаю, что когда-либо знал случай, когда обе станции вышли из строя одновременно. Таким образом, проблемы с подключением происходят не только в случайные часы в течение дня, но и в разные часы для каждой станции. Единственным общим знаменателем является то, что потеря соединения происходит примерно за 2 минуты до конца «часа».

Я сейчас не на станции, поэтому не могу точно назвать оборудование, которое мы используем, но установка довольно проста.

У нас есть модем, подключенный к коммутатору Netgear Prosafe 24 port. Затем коммутатор подает сигнал в отдельные комнаты в здании. Обычно в каждой комнате есть небольшой коммутатор на 4-8 портов (разных марок). Устройства обработки звука, которые принимают аудио, затем подключаются к этим меньшим коммутаторам.

Я в полной растерянности. Мне даже сложно убедить Comcast, что это не наша вина. Прямо сейчас я думаю об отключении 24-портового коммутатора на выходные и использовании только четырех портов на задней панели модема для питания жизненно важного/важного оборудования (хотя, думаю, мне придется оставить подключенным хотя бы один из коммутаторов поменьше). Я представляю, что тогда Comcast придется взять на себя вину, если проблема сохранится, потому что не будет никаких промежуточных технологий.

Любая помощь будет ОГРОМНЫМ благословением! Почему проблемы полуслучайные? Где мне начать искать источник проблемы? Я немного подозреваю модем; проблемы начались около того времени, когда модем был заменен – я думаю. Но, в конечном счете, я потерян... потерян.. потерян.

решение1

Начните с изоляции проблемы. Я логически разобью сеть на сегменты, начиная с внешней стороны и работая внутри для документирования/логического потока:

  • Интернет (8.8.8.8 — это DNS-сервер Google, который никогда не отключается)
  • Один переход в сеть вашего интернет-провайдера с вашего устройства подключения к интернет-провайдеру
  • Ваш модем
  • Ваш маршрутизатор/устройство NAT
  • Ваша внутренняя сеть (192.168.xx, 172.20.xx, 10.xxx)

Понимая этот распад, мы начинаем выяснять, что у нас есть... в обратном порядке: изнутри наружу. Итак...

Использование команды ipconfig

С внутреннего устройства (ПК) определите, как выглядит ваша сеть в соответствии с этим устройством/ПК Пуск | Выполнить | cmd Enter ipconfigEnter

Это даст вам ваш IP/подсеть/шлюз (будем надеяться, что вы не используете беспроводную сеть, если она отключена для устранения неполадок первого уровня).

Должно выглядеть примерно так:

Windows IP Configuration

Ethernet adapter Ethernet:

   Connection-specific DNS Suffix  . :
   Link-local IPv6 Address . . . . . : removed
   IPv4 Address. . . . . . . . . . . : 192.168.0.100
   Subnet Mask . . . . . . . . . . . : 255.255.255.0
   Default Gateway . . . . . . . . . : 192.168.0.1

Убедитесь, что вы используете устройство Ethernet/Local Area Connection, а не что-то еще. Устройство, на котором вы находитесь, имеет IPv4-адрес: 192.168.0.100 Ваше устройство NAT/маршрутизатор — это шлюз по умолчанию: 192.168.0.1

Использование команды ping

Теперь мы начинаем тестировать соединение между сетевым устройством и устройством NAT/Router. В командной строке мы будем использовать команду ping типа:

ping 192.168.0.100 -t 

или

ping -t 192.168.0.100

По сути, вы просто говорите устройству: «Привет, вы здесь?», и это устройство должно ответить вам (пока мы не доберемся до середины Интернета, где все может пойти не так).

Хорошие ответы:

Reply from 192.168.0.100: bytes=32 time<1ms TTL=64

Плохие ответы:

Destination Host Unreachable

или

Request timed out

или что-нибудь еще

-t в этой команде означает, что нужно продолжать отправлять пакет информации каждую секунду, пока вы не скажете ему остановиться ( Ctrl+ cили закройте окна с помощью X). Без -t он просто отправит 4 пакета и остановится.

Теперь, когда мы знаем, как проверить соединение, мы применим команду ping к каждому соединению/подключению в сети и посмотрим, где у нас начнутся проблемы.

Использование команды tracert

Последнее, что нам нужно сделать, это убедиться, что в канале между вами и Интернетом нет никаких проблем (это называется двойной NAT или два устройства NAT), и определить, какое устройство находится на один шаг дальше от модема вашего интернет-провайдера.

в командной строке введите:

tracert google.com<kbd>Enter</kbd>

вы получите что-то вроде:

tracert google.com

Tracing route to google.com [74.125.21.138]
over a maximum of 30 hops:

1    <1 ms    <1 ms    <1 ms  router [192.168.0.1]
2     2 ms     1 ms     1 ms  device [10.1.10.1]
3     1 ms     1 ms     1 ms  blah.somename.whatever [123.123.123.123]
4     1 ms     1 ms     1 ms  124.124.124.124
5     *        *        *     Request timed out.

....и их будет больше, нажмите Ctrl+, Cчтобы остановить

Что вас волнует, так это IP-адрес устройства между [] для каждой строки. Примечание: если строка после IP-адреса вашего шлюза по умолчанию из теста ipconfig выше соответствует одному из шаблонов 192.168.xx, 172.20.xx, 10.xxx (частные немаршрутизируемые подсети), у вас двойной NAT, который может вызвать другие странные проблемы, я не буду вдаваться в подробности здесь.

Последняя необходимая информация — публичный IP вашей сети. Перейдите на www.ipchicken.com. Это число — ваш публичный IP.

Итак, имея всю эту информацию, что же нам тестировать?

  1. Вы сами (я обычно пропускаю этот пункт, если только следующий не вызывает проблем): 192.168.0.100

  2. Ваше подключение к маршрутизатору NAT: 192.168.0.1

  3. номер ipchicken: 123.123.123.125

  4. Первый переход за пределы модема интернет-провайдера (ваш публичный шлюз): 123.123.123.123

  5. DNS-серверы Google: 8.8.8.8

Итак, используя тест ping, описанный выше, откройте до 5 окон командной строки, проверяя каждый переход с помощью ping. Позвольте мне снова добавить эти переходы с тем, что может быть проблемой между каждым устройством

ping 192.168.0.100

- если это не 100%, у вас проблема с сетевой картой или сломанный стек IP, и его нужно перестроить

ping 192.168.0.1

- если это не 100%, у вас проблемы с внутренней проводкой между вашим ПК и коммутатором/маршрутизатором. Начните следить и заменять сетевые кабели/коммутаторы/маршрутизатор. - если у вас здесь был двойной NAT, это начнет быть проблемой с последующими переходами

ping 123.123.123.125

- У вашего интернет-провайдера возникли проблемы с модемом. Попросите его провести тестирование. - На языке сегментации сети мы пересекаем DMARC или границу между вашей локальной корпоративной сетью (проблема вашего ИТ-специалиста) и сетью интернет-провайдера.

ping 123.123.123.123

- У вас возникли проблемы с подключением к Интернету, провайдеру необходимо войти в систему и проверить подключение к Интернету. У вашего модема нет хорошего подключения к следующему набору оборудования провайдера, им необходимо устранить неполадки. - Кабельный провайдер, вам необходимо проверить питание (обычно +-10) и SNR (соотношение сигнал/шум), и они должны сообщить вам, что они называют приемлемым диапазоном. Если он вне диапазона, необходимо будет подключить специалиста провайдера. - DSL, вам необходимо, чтобы они проверили профиль шума, и он должен соответствовать их спецификациям. Установка фильтров на всех устройствах, подключенных к телефонной линии, может стать здесь возможной проблемой.

ping 8.8.8.8

Это где-то в сети, интернет-провайдеры будут отрицать правдоподобность того, что это они или нет, более глубокий анализ цепочки tracert может помочь вам начать видеть, где начинают возникать проблемы. Имена помогут вам идентифицировать, когда меняются границы сети, если вам повезло это увидеть.

Добро пожаловать в ИТ-профессию :)

Связанный контент