
У меня тут немного тревожная ситуация. Надеюсь, кто-нибудь поможет мне разобраться, что происходит.
Фон
Я построил сервер ZFS, работающий на FreeNAS, для резервного копирования и хранения данных около пяти лет назад, начав с 6x 8TB дискового массива RAID-Z2. Он продолжает работать нормально и по сей день. Устройство не имеет дополнительных ролей, кроме предоставления общих ресурсов cifs.
Большую часть времени сервер находится в автономном режиме (так как он потребляет много энергии), время от времени включаясь для резервного копирования, копирования файлов, очистки томов и т. д.
Несколько лет назад я решил расширить эту установку (как и планировалось) еще шестью дисками, также в RAID Z2. Этот массив, подключенный к тому же оборудованию, что и первый, теперь «удали» несколько отдельных дисков (по одному за раз), которые я заменил. Все эти диски прошли сканирование поверхности, поэтому я предположил, что существует какая-то несовместимость с ZFS.
Удалённые диски
На прошлой неделе я снова включил его, и он внезапно решил извлечь два диска. Поскольку это максимум, который можно потерять без потери тома, я немедленно заказал два новых, провел полный тест чтения с помощью Western Digital Data Lifeguard (оба прошли) и заменил старые. Массив был повторно серебряным и снова был помечен как «ЗДОРОВЫЙ». Извлеченные диски я также дополнительно протестировал с помощью DLG, и, что удивительно, они тоже прошли. После завершения серебряного переноса я приступил к созданию резервных копий на этом томе.
ПРОБЛЕМА
Я только что узнал, что ЧЕТЫРЕ из шести дисков теперь были удалены, что сделало том НЕДОСТУПНЫМ, а не ДЕГРАДИРОВАННЫМ. Это включает два совершенно новых диска и два других, один из которых около пяти дней назад также временно вызывал проблемы, но, похоже, восстановился сам по себе. Четвертый удаленный диск, похоже, работал без проблем до сих пор.
Мой вопрос:что могло стать причиной этого?(и, конечно, как я могу восстановить громкость и, наконец, предотвратить повторение этого?)
Я изучаю несколько направлений и буду признателен за любую информацию по ним :)
Власть: Поскольку это произошло под давлением, мне интересно, может ли это быть проблемой питания? Блок питания - Seasonic G-Series G-550W PCGH-Edition, которого должно быть достаточно (жесткие диски также находятся в режиме поэтапного включения питания iirc). Что также говорит против этого, так это то, что оба массива обычно очищаются одновременно, и resilvering двух дисков на теперь НЕДОСТУПНОМ томе завершился без проблем. И я скопировал несколько больших файлов на первый массив несколько дней назад, что также не вызвало проблем. Если один массив 6x8 ТБ может оставаться здоровым под давлением, почему другой массив не может этого сделать при тех же обстоятельствах? Обратите внимание, что они не подвергались нагрузке одновременно, и раньше были более длительные периоды времени, когда не было никаких проблем с обоими томами.
Температура: Два самых проблемных диска находятся во втором отсеке для дисков, который находится за основным. Хотя воздух, который достигает их, будет иметь повышенную температуру, я также добавил вентилятор за вторым отсеком, который активно высасывает оттуда воздух (который направляется специально вокруг этого отсека с помощью герметичных разделителей), поэтому поток воздуха должен быть выше.
Боюсь, я еще не добрался до настройки мониторинга температуры HDD (если только нет функции по умолчанию, о которой я не знаю). Температура CPU отслеживается, но, конечно, в этом отношении никакой помощи. Проблемные диски также исчезли из обзора отчетов, так что я даже не могу посмотреть их историю ввода-вывода прямо сейчас.
Контроллер: Второй массив подключен к контроллеру Delock PCI Express SATA. Интересно, эта штука, возможно, не справляется с пропускной способностью данных? В этом случае я не уверен, как я смогу это проверить. И я также не уверен, почему четыре диска были удалены, а два других в том же массиве продолжали нормально работать до сих пор (сообщается как «ONLINE»).
SATA-кабели: Мне еще предстоит их протестировать, так что tbc. Кабели аккуратно спрятаны и не сильно изгибаются, но они, конечно, могут выйти из строя со временем. Вероятность того, что четыре диска в одном массиве в один и тот же день будут недоступны из-за кабелей, ставит это очень низко в моем списке подозреваемых.
Аппаратное обеспечение:
- Основная плата: MSI C236M WORKSTATION (с шестью портами SATA, используется массивом №1)
- Процессор: Intel Xeon E3-1275 v5
- Память: Kingston KVR21E15D8K2 x2 (ECC)
- БП: Seasonic G-Series G-550W PCGH-Edition
- Второй контроллер: Разблокировать карту PCI Express x2 -> 10 x внутренних SATA III - LP
- Массив №1(6x 8 ТБ в RAID-Z2, работают стабильно уже 5 лет):
- WD80EFZXx3
- ST8000VN0002 х2
- ST8000DM002 х1
- Массив №2(6x 8 ТБ в RAID-Z2):
- WD80EFAX (без проблем)
- ST8000VN0022 (ранее был удален, DLG пройден и в настоящее время работает нормально)
- WD80EFAX x2 (существующие диски, теперь также удалены)
- WD80EFZZ x2 (новые сменные диски, сейчас удалены)
- ST8000VN0022 x2 (удален несколько дней назад, заменен на WD80EFZZ x2)