Какова летальность ошибки SMART?

Какова летальность ошибки SMART?

У нас есть сервер хранения данных на 40 ТБ в RAID 5 с двенадцатью дисками по 2 ТБ. Один диск работает как hotspare и управляется аппаратным RAID-контроллером.

По какой-то неизвестной причине три диска, по-видимому, вышли из строя одновременно. Один, похоже, вышел из строя полностью, а два показывают ошибки SMART. Hotspare, похоже, не был преобразован в часть массива, но я не уверен, произошло ли бы это автоматически в любом случае.

Вопрос в том, возможно ли перезапустить эти два диска, перестроить массив, а затем сохранить эти данные до того, как эти диски окончательно выйдут из строя? Насколько я знаю об ошибке SMART, это не прямой сбой, а всего лишь прогнозируемый сбой.

Очевидно, что эти диски необходимо вскоре заменить, но действительно ли они вышли из строя или их можно спасти?

решение1

Один полностью отказавший диск должен быть заменен как можно скорее, и массив может восстановить себя. Диски, которые должны демонстрировать отказы SMART, имеют большую вероятность отказа, чем те, которые не показывают отказы SMART, согласно этому исследованию:https://static.googleusercontent.com/media/research.google.com/en//archive/disk_failures.pdf. Их также следует заменить и никогда больше не использовать в важных случаях использования.

Если вы используете одинаковые жесткие диски, имеет смысл приобрести несколько запасных, количество которых зависит от предполагаемого срока службы устройства хранения данных.

По моему мнению, RAID5 не является хорошим вариантом для массивов дисков размером более 1 ТБ. RAID5 требует много времени на перестроение, а производительность при перестроении низкая. RAID5 также не очень полезен, когда у вас много (12) дисков в массиве, поскольку он защищает только от одного отказа. Второй отказ разрушает весь массив.

Для будущих сборок я предлагаю использовать RAID10, он обеспечит более стабильную и быструю производительность, а также лучшую отказоустойчивость.

решение2

Насколько я понимаю, RAID 5 допускает отказ одного диска в массиве. Hotspare создается соответствующим образом по запросу. Для этого используется контроллер/GUI или любой другой интерфейс, который вы используете. Время, необходимое для восстановления RAID, зависит от объема используемых данных. После создания hotspare ваш RAID теоретически вернется в нормальное состояние. В это время отключите один из других дисков с ошибками SMART и восстановите его с помощью процесса hotspare. Продолжайте, пока не будут заменены все ваши HDD с ошибками. Я бы заменил любой диск с критически важными данными, на котором отображаются ошибки SMART. Вы можете использовать RAID 6 в будущем, конечно, вам придется сделать резервную копию всех ваших данных, переместив их, перестроить массив и вернуть его на место. RAID 6 допускает больше отказов дисков, но вы немного снижаете скорость записи.

Связанный контент