Robustez de las incursiones de software de Linux

Robustez de las incursiones de software de Linux

Tengo una configuración raid5 de 4 discos y 5 TB en la que un disco muestra signos de irse a perder. Está informando errores de medios y desde dmesg puedo ver que se corrigieron varios errores de lectura. smartctl informa "notificaciones", pero hasta ahora no hay pánico. Dado que los discos nuevos son bastante caros en este momento, estoy empezando a reflexionar exactamente sobre qué tan robusta es la capa md de Linux.

Agradecería que alguien pudiera arrojar algo de luz sobre cómo md realmente maneja los errores de disco. Por ejemplo, ¿cómo maneja md los errores de escritura y lectura? ¿Qué se necesita (realmente) para que el disco sea rechazado de una matriz? También leí que recientemente md obtuvo soporte para mapear bloques defectuosos. ¿Significa esto que los errores de lectura que he tenido se habrían mapeado si estuviera ejecutando el kernel >3.1 o todavía intentaría "trabajar en ellos" para hacerlos utilizables?

Respuesta1

Si te preocupas por tus datos, cambia el disco ahora. Cada subsistema hace todo lo posible para evitar la pérdida de datos, pero no puede hacer mucho. Incluso puede mapear bloques defectuosos: cuando hay uno, habrá otros

Recibiste advertencias masivas sobre problemas inminentes: ignorarlos es simplemente irresponsable con los datos de tus clientes.

Edite, ya que esto es demasiado largo para un comentario:

¿No tengo idea de cuál es realmente tu pregunta? ¿Quieres saber si las advertencias son graves? Sí lo son. ¿Necesitas algo al respecto? Sí, y ahora.

Cuando algunos informes de subsistema indican errores, están ahí y son importantes. Incluso si el sistema todavía es capaz de corregirlos, existe una buena posibilidad de que este ya no sea el caso dentro de dos minutos y el disco se marque como fallido y se desconecte.

Linux md raid es al menos tan confiable como cualquier implementación RAID de hardware, pero consideraría un RAID5 como una opción peligrosa en el mejor de los casos. El problema es que quedará desprotegido durante una restauración, lo cual es una situación muy agotadora para un RAID5. Lo considero más confiable que algunos sistemas RAID de hardware, ya que recibirá advertencias avanzadas cuando un disco esté a punto de fallar, mientras que un RAID de hardware podría informarle solo después del hecho. Hay algunos inconvenientes en un RAID por software, principalmente relacionados con problemas de rendimiento, pero la confiabilidad no es uno de ellos.

De todos modos, independientemente de esto, el enfoque profesional para situaciones como la suya es reemplazar el disco inmediatamente, y esa sería mi reacción también para mi matriz de discos privada (tengo un repuesto para este tipo de situaciones).

Respuesta2

Esto es de una experiencia de hace aproximadamente 6 años con uno de nuestros servidores Dell: en aquel entonces no usábamos hardware raid, ya que no había posibilidad de detectar fallas de disco de forma remota.

Entonces utilizamos el software raid 1 (md). Poco tiempo después la redada se degradó. Al mirar /var/log/messages, vi que había una lista de errores de IO relacionados con una determinada partición.

Volví a agregar la partición al raid y poco tiempo después fue descartada nuevamente.

Envié al soporte de Dell esa salida de /var/log/messages y obtuve un disco nuevo de inmediato. Esto fue en una versión de Linux no compatible y solo con el nivel de soporte más básico.

Teníamos un par de máquinas más configuradas y nunca volvimos a tener estos problemas (es decir, los discos nunca fallaron). Para mí esto es una prueba de que puedes confiar en md.

Creo que esto sigue siendo válido para el kernel 3.1 (todavía no tengo ninguno de estos).

Respuesta3

Hasta donde yo sé, mdadm es una implementación RAID de software sólida que con HD en buen estado rara vez genera errores de ningún tipo, tengo varios servidores con mdadm configurados y nunca obtuve errores de lectura en los archivos de registro.

Verifique el estado de su matriz con:

mdadm --detail /dev/mdX

Sin embargo, le recomiendo encarecidamente que reemplace la unidad responsable de los errores...

información relacionada