Увеличивает ли восстановление диска вероятность выхода из строя другого диска в дисковом массиве RAID 5?

Увеличивает ли восстановление диска вероятность выхода из строя другого диска в дисковом массиве RAID 5?

Если у вас базовый массив RAID 5 из 3 или более жестких дисков, и один из них выходит из строя, увеличивает ли это вероятность выхода из строя одного из других дисков и делает невозможным полное восстановление? Если каждый из дисков считывается во время процесса восстановления, увеличивает ли это вероятность их выхода из строя, если предположить, что они активны только небольшую часть дня?

Если это влияет на стабильность во время восстановления, я, возможно, рассмотрю RAID 6. Также, есть ли какие-либо преимущества или недостатки использования RAID 5 вместо RAID 4? Кажется, что использование RAID 4 более организовано, а использование RAID 5 более рассредоточено.

решение1

Во-первых, если вы используете RAID с контролем четности, я бы рекомендовал RAID 5 с автоматической схемой резервного копирования вместо RAID 6. Резервное копирование может осуществляться на несколько дисков (рекомендуется), RAID 0 (не рекомендуется) или еще один RAID 5. Это обеспечивает хороший баланс между стоимостью и безопасностью ваших данных, поскольку также может обрабатывать отказы контроллера и человеческие ошибки.

То, что вы будете делать безопасно, зависит от размера(ов) вашего массива.

Многие в ИТ-индустрии отходят от RAID 5 по двум причинам. Во-первых, размер сдвига многих массивов требует чрезвычайно длительного времени восстановления, что открывает окно для ожидания второго сбоя. Во-вторых, это проблема URE, которая является неустранимой ошибкой чтения, которая неизвестна, пока блок не будет прочитан, а затем весь массив на этом диске станет нечитаемым. Опять же, URE случаются редко с точки зрения количества ошибок сдвига на считанные биты, но когда у вас массивы размером в ТБ, редко — это слишком часто. Массив нельзя восстановить из диска с URE. Поэтому если у вас есть сбой и URE, у вас фактически есть 2 отказавших диска. RAID 6 помогает в этом, потому что вы можете потерять два диска и все равно восстановить массив.

Но если у вас есть массив объемом 100 ГБ в RAID 5, эти проблемы значительно уменьшаются, и RAID 5 становится более жизнеспособным; однако если у вас есть массив объемом 100 ТБ (просто в качестве примера) в RAID 6, вам может потребоваться больше избыточности или другой вариант!

RAID 5 с массивами TB — это определенно авантюра, и я бы не доверял ей. И нет смысла запускать RAID 6 с 4 дисками поверх RAID 10, если только вы не собираетесь вскоре расширять свой массив и вам не нужно делать это по одному диску за раз из соображений экономии. И давайте не будем забывать, что вы можете запустить несколько массивов RAID 1, это просто разделит ваши данные на отдельные разделы/диски, с которыми вам придется работать, и лишит вас удобства одного большого диска.

Но во всем есть свои нюансы. Чем больше RAID 5, тем выше (экспоненциально выше) вероятность сбоя перестройки из-за отказа второго диска или URE. RAID 6 дороже и сложнее. RAID 10 еще дороже (но для простоты). И стоимость удобства нескольких RAID 1.

В конце концов, вам нужно определить свои потребности, отделить то, что вы не можете потерять, и то, что вы можете потерять. Сопоставьте это с бюджетом и уровнем вашей компетентности, выбирая, какой массив выбрать.

Мы размещаем наши офисные и домашние данные на RAID 1 (фактически, RAID 10 из 2 дисков с MD RAID) для безопасности с ежедневным резервным копированием. Это просто, быстро и надежно. Любые другие данные, такие как видеофайлы или другие большие некритичные файлы, мы размещаем на RAID 5 или на отдельных дисках с периодическим резервным копированием в зависимости от важности данных, поскольку мы не хотим предоставлять нашим фильмам тот же уровень безопасности, что и нашим семейным фотографиям и/или файлам наших компаний.

решение2

Процесс перестройки RAID-массива может занять много времени (дни) и быть очень тяжелым для дисков. В течение этого времени перестройки выжившие диски более подвержены сбоям из-за своей активности.

До начала восстановления уцелевшие диски не подвержены повышенному риску выхода из строя.

По этой причине может быть нецелесообразно иметь в системе "горячий резерв", поскольку он автоматически запустит перестроение и вызовет сбой. Кроме того, обнаружение неисправимой ошибки чтения во время перестроения может привести к сбою массива, даже если больше ни один диск не вышел из строя. Лучше сначала скопировать данные с массива, а затем перестроить, если нет недавних резервных копий.

решение3

Короткий ответ ДА ​​- RAID 1+0 был разработан СПЕЦИАЛЬНО из-за вероятности сбоя при перестройке RAID5.

Длинный ответ - Да, существует повышенная вероятность отказа привода. В "самом очевидном/простом" случае можно утверждать, что выделяется больше тепла, поэтому вероятность отказа немного выше. Тем не менее, это не реальный риск.

Реальный риск заключается в том, что если диски были куплены примерно в одно и то же время, существует значительно повышенная вероятность того, что диски выйдут из строя примерно в одно и то же время. Таким образом, вероятность того, что второй диск выйдет из строя во время восстановления, увеличивается. К сожалению, этот сценарий не является академическим — чем больше диск, тем дольше восстановление и тем больше вероятность отказа. RAID5, как правило, считается малоэффективным для больших дисковых пулов. Принятым решением является RAID 10 (читается как RAID one 1+0). По сути, это создает 2 идентичных набора данных на 2 наборах массивов — таким образом, он использует намного больше (почти вдвое больше) пространства, чем RAID5, но обеспечивает гораздо большую защиту от сбоя нескольких дисков — что, к сожалению, распространено на дисках большого размера.

Связанный контент