Descubra por qué mdadm dejó caer un disco

Descubra por qué mdadm dejó caer un disco

Mdadm me ha dejado caer un disco dos veces en el último mes o dos. Lo volví a agregar la última vez y funcionó bien por un tiempo, luego noté que se estaba ejecutando en modo degradado nuevamente. Me preguntaba cómo encuentro la "razón" por la que se cayó el disco.

Respuesta1

Debe leer los registros del sistema: normalmente /var/log/messagesy/o el resultado del journalctl -xecomando. Si la unidad falló recientemente, el búfer de mensajes del kernel (visible con el dmesgcomando) también puede tener mensajes al respecto.

Normalmente, los dmesgmensajes también se almacenarán en los registros, pero es posible que el subsistema de registro se haya configurado para ignorar algunos de los mensajes del kernel de menor prioridad, por lo que es posible que haya más detalles en la dmesgsalida.

Lo que probablemente verá es una ráfaga de mensajes de error/tiempo de espera de E/S del disco y en algún lugar entre ellos o después de ellos un mensaje del subsistema RAID que está marcando la unidad como fallida. Básicamente, si el subsistema RAID detecta que un disco comienza a informar que está fallando en las solicitudes de E/S (lectura o escritura), o que se agota el tiempo de espera, por cualquier motivo, el disco se marcará como fallido.

Para obtener más pistas, es posible que también desee utilizar smartctl -aen el disco caído, para ver qué tipo de resultados informan sus propias comprobaciones de estado internas.

información relacionada