
У меня есть сервер, оснащенный RAID-контроллером LSI 9271-8i, на котором 4 массива по 4 ТБ организованы как RAID-5, а 1 массив по 8 ТБ — как JBOD (который в контроллере называется RAID-0).
При копировании больших объемов данных (~1 ТБ) я могу наблюдать следующее: для первых нескольких гигабайт скорость передачи хорошая и ограничена скоростью диска или сети, обычно ~100 МБ/с. Но через некоторое время передача полностью останавливается примерно на 20-30 секунд, а затем продолжается со следующим примерно 1 ГБ. Я копирую много файлов, каждый из которых от 10 МБ до 500 МБ, и во время паузы robocopy остается на файле и продолжает со следующим после паузы. Таким образом, общая скорость передачи падает до ~20 МБ/с.
Во время паузы просмотр файлов на дисках невозможен, а в одном случае я получил сообщение об ошибке сброса контроллера («Контроллер обнаружил фатальную ошибку и был сброшен»). Также во время этой паузы невозможен доступ к данным контроллера с помощью инструмента CLI (результат отображается после окончания паузы).
Я мог наблюдать такое поведение при копировании
- гигабитная сеть на том RAID-5
- гигабитная сеть к объему JBOD
- JBOD в RAID-5
- RAID-5 в JBOD
Ничего подозрительного не происходит: температуры (диски, BBU) в допустимом диапазоне, температура контроллера кажется немного высокой, но также в пределах спецификаций. Проверки RAID не выполняются, перестроение не выполняется.
Есть предположения?
Прежде чем заменить контроллер, я хочу попробовать оптимизировать тепловую ситуацию. Похоже ли это поведение на возможную тепловую проблему?
Мне кажется странным, что первые 20-30 ГБ работают нормально, а до этого паузы не возникают. Если я оставляю сервер в покое на некоторое время и повторяю попытку, то снова несколько ГБ копируются нормально. Единственное наивное объяснение для меня — это то, что контроллер слишком нагревается. Почему контроллер, а не диски? Диски RAID-5 имеют скорость 7200 об/мин и расположены очень близко, в то время как одиночный диск JBOD имеет скорость 5400 об/мин и вокруг него много воздуха. Было бы странно, если бы оба показали одинаковые симптомы перегрева.
решение1
У меня была похожая проблема с 9260-16i. Это была не температура, так как у меня два 92-миллиметровых вентилятора дуют прямо на LSI. У меня есть второй сервер, настроенный таким же образом, и он был в порядке. Я обнаружил, что сервер с проблемами был настроен на размер полосы 64 КБ, а рабочий сервер имел размер полосы 256 КБ. Я сделал резервную копию проблемного сервера и перестроил группу дисков с полосой 256 КБ, а затем отформатировал диск ОС с кластерами 64 КБ (так как у меня файл размером в несколько ГБ). Я перемещал данные обратно и без задержек и в основном работал на полной гигабитной скорости сетевой карты при записи, перемещая более 350 ГБ в час без остановок и пауз.
решение2
Проблема, вероятно, связана с тем, что контроллер очищает свой кэш DRAM. Любой, у кого есть такая проблема, должен попробовать установить кэш контроллера на значение, writethrough
а неwriteback