RAID1 mdadm, ¿falla automáticamente una unidad y evita un sistema de archivos de solo lectura?

RAID1 mdadm, ¿falla automáticamente una unidad y evita un sistema de archivos de solo lectura?

Estoy administrando un servidor con dos unidades de estado sólido configuradas en mdadm RAID1. El servidor ejecuta RHEL6 con un sistema de archivos ext4.

Esta tarde, el servidor se desconectó poco después de que comenzaran las copias de seguridad nocturnas y la consola informó errores de disco:ingrese la descripción de la imagen aquí

Al iniciar sesión en la consola, descubrí que mdadm había marcado uno de los discos como fallido y que el sistema de archivos estaba configurado en solo lectura.

¿Hay alguna manera de configurar mdadm para que falle la unidad antes de que el sistema de archivos se vuelva a montar como de solo lectura?Preferiría ejecutarlo como un sistema de disco único por un corto tiempo (hasta que se pueda instalar un disco de reemplazo) en lugar de poner inmediatamente el sistema de archivos en modo de solo lectura, lo que garantizaría una interrupción.

Respuesta1

Lo hace de forma predeterminada, pero he tenido problemas similares con esto. MD no está realmente interesado en fallar discos (o, de hecho, en reparar sectores reescribiéndolos, lo que hacen los controladores RAID de hardware). Es por eso que configuré mi monitoreo de registros para buscar 'una excepción' y enviarme un correo electrónico cuando eso suceda. Al menos con los discos duros tradicionales, esto le permite ver las fallas del disco mucho más rápido.

Si el sistema de archivos está marcado como de solo lectura, el error subió más arriba en la cadena y el dispositivo MD también detectó errores. ¿Estás seguro de que no hubo errores en sdb?

¿O está seguro de que las unidades fallaron? A mí me puede pasar recientemente que todo el bus PCI haya fallado. Todos los dispositivos conectados a él comenzaron a arrojar errores (todos ATA y Ethernet) y, de hecho, los sistemas de archivos se marcaron como de solo lectura y las matrices MD fallaron. Pero obviamente los discos o MD no eran el problema.

Para comprobar si las unidades tenían errores: no tengo mucha experiencia con SMART en unidades SSD, pero al menos con unidades HDD, el registro SMART puede mostrar algo; Hay un registro de errores en él y puede consultar los parámetros inteligentes y quizás compararlos con el otro disco.

Si está instalado smartmontools, puede hacer:

smartctl -a /dev/sda

Usted también podría estar interesado en¿Cómo soluciono problemas de mi matriz RAID?.

Editar: En cuanto a lo del bus PCI. Parece que su problema se localizó en un disco o controlador.

información relacionada