В настоящее время нечитаемые сектора на диске RAID 5 Linux

В настоящее время нечитаемые сектора на диске RAID 5 Linux

У меня каждые 30 минут появляются сообщения SmartD /var/log/messages:

smartd[3588]: Устройство: /dev/sdc, 176 В настоящее время нечитаемые (ожидающие обработки) секторы

Этот диск (sdc) является частью RAID 5, настроенного с помощью mdadm. Монитор mdadm сообщает, что RAID в порядке, но я хочу знать, нужно ли мне менять диск или нет. Также, необходимо ли пометить эти сектора как плохие или ОС уже сделала это.

Если мне нужно сменить диск, как мне выбрать замену? Я не могу найти количество блоков в характеристиках жесткого диска, поэтому если я выберу диск с меньшим количеством блоков, чем у оригинала, у меня будут проблемы.

решение1

Да, поменяйте диск.

Нечитаемые (ожидающие) секторы — это секторы, содержимое которых не может быть прочитано. В обычной ситуации, не связанной с RAID, это приведет либо к ошибке чтения, либо к длительной задержке, пока дисковод снова и снова пытается прочитать сектор, пока это не удастся (или пока он в конечном итоге не сдастся).

С RAID происходят две вещи:

  1. Вероятно, ваш диск настроен на короткое значение TLER. Таким образом, он прекратит попытки прочитать этот сектор в течение разумного времени. (Таким образом предотвращая длительные зависания).
  2. Ваш RAID-массив замечает сбой и считывает данные с другого диска. Это преимущество RAID 5: у вас есть запасная копия.

Что вам нужно сделать:

  1. Проверьте свои резервные копии. Они вам не понадобятся.если все пойдет хорошо.
  2. Получите сменный диск такого же или большего размера. Вы можете проверить размер с помощью smartctl -a /dev/sdc. Не думайте, что все диски размера X имеют одинаковую емкость. Производители любят круглые числа; один диск на 500 ГБ вполне может быть меньше другого диска на 500 ГБ.
  3. Переведите диск с проблемами в автономный режим. ( mdadm --manage --remove /dev/mdX /dev/sdc)
  4. Замените диск новым оборудованием и позвольте массиву восстановиться самостоятельно. ( mdadm --add /dev/mdX /dev/sdc)

Если вы использовали большие диски, то это займет много времени. Иногда быстрее просто перестроить RAID-массив с нуля и восстановить из резервных копий. (Сначала ПРОТЕСТИРУЙТЕ эти резервные копии!)

Пока RAID перестраивается, у вас нет избыточности. Таким образом, если другой диск выходит из строя (например, из-за стресса при перестроении), то у вас проблема. Это иногда случается с большими дисками (длительное время перестроения) и партиями дисков с одной и той же даты.

решение2

Принятый ответ в целом хорош, но с mdadm 3.3 вы можете заменить диск в массиве, не удаляя сначала неисправный. Если неисправный диск в основном читаем, это защищает вас от большинства двойных отказов.

Предположим, что sdd — это новый диск, тогда вместо пунктов 3 и 4 выполните следующее:

  1. Добавьте новый диск в массив и замените неисправный диск на новый: mdadm /dev/mdX -add /dev/sdd --replace /dev/sdc --with /dev/sdd

Он запустит перестройку со всеми возможными доступными данными и удалит неисправный/старый диск, когда это будет готово.

Дополнительно следует отметить, что при создании нового массива рекомендуется создавать по одному большому разделу на каждом физическом устройстве и создавать RAID-массив на разделах, а не на неформатированном устройстве.

Связанный контент