RAID1 mdadm, автоматически выводит диск из строя и избегает файловой системы, доступной только для чтения?

RAID1 mdadm, автоматически выводит диск из строя и избегает файловой системы, доступной только для чтения?

Я управляю сервером с двумя твердотельными дисками, настроенными в mdadm RAID1. Сервер работает под управлением RHEL6 с файловой системой ext4.

Сегодня вечером сервер отключился вскоре после начала ночного резервного копирования, а консоль сообщила об ошибках диска:введите описание изображения здесь

Войдя в консоль, я обнаружил, что один из дисков был помечен mdadm как неисправный, а файловая система была установлена ​​в режим «только чтение».

Можно ли настроить mdadm так, чтобы он завершал работу диска до того, как файловая система будет перемонтирована как доступная только для чтения?Я бы предпочел некоторое время поработать в качестве однодисковой системы (пока не будет установлен сменный диск), чем немедленно переводить файловую систему в режим «только чтение», что гарантированно приведет к сбою.

решение1

Он делает это по умолчанию, но, конечно, у меня были похожие проблемы с этим. MD не очень-то стремится к выходу дисков из строя (или, по сути, к восстановлению секторов путем их перезаписи, что делают аппаратные RAID-контроллеры). Вот почему я настроил мониторинг журналов на сканирование на предмет «исключения ata» и отправку мне электронного письма, когда это происходит. По крайней мере, с традиционными жесткими дисками это позволяет вам гораздо быстрее видеть сбои дисков.

Если файловая система отмечена как read-only, ошибка пошла выше по цепочке, и устройство MD также увидело ошибки. Вы уверены, что на sdb не было ошибок?

Или вы уверены, что диски вообще вышли из строя? Может случиться, совсем недавно у меня отказала вся шина PCI. Все подключенные к ней устройства начали выдавать ошибки (все ATA и ethernet), и действительно файловые системы были помечены как только для чтения, а массивы MD как отказавшие. Но, очевидно, проблема была не в дисках или MD.

Чтобы проверить, были ли ошибки на дисках: у меня нет большого опыта работы со SMART на SSD-дисках, но, по крайней мере, в случае с HDD-дисками журнал SMART может что-то показать; в нем есть журнал ошибок, и вы можете посмотреть параметры Smart, возможно, сравнить с другим диском.

Если установлен smartmontools, вы можете сделать:

smartctl -a /dev/sda

Вас также может заинтересоватьКак устранить неполадки в моем RAID-массиве?.

Редактировать: Что касается шины PCI. Похоже, ваша проблема была локализована на одном диске или контроллере.

Связанный контент