Robustez de las incursiones de software de Linux

Question 1

Si te preocupas por tus datos, cambia el disco ahora. Cada subsistema hace todo lo posible para evitar la pérdida de datos, pero no puede hacer mucho. Incluso puede mapear bloques defectuosos: cuando hay uno, habrá otros

Recibiste advertencias masivas sobre problemas inminentes: ignorarlos es simplemente irresponsable con los datos de tus clientes.

Edite, ya que esto es demasiado largo para un comentario:

¿No tengo idea de cuál es realmente tu pregunta? ¿Quieres saber si las advertencias son graves? Sí lo son. ¿Necesitas algo al respecto? Sí, y ahora.

Cuando algunos informes de subsistema indican errores, están ahí y son importantes. Incluso si el sistema todavía es capaz de corregirlos, existe una buena posibilidad de que este ya no sea el caso dentro de dos minutos y el disco se marque como fallido y se desconecte.

Linux md raid es al menos tan confiable como cualquier implementación RAID de hardware, pero consideraría un RAID5 como una opción peligrosa en el mejor de los casos. El problema es que quedará desprotegido durante una restauración, lo cual es una situación muy agotadora para un RAID5. Lo considero más confiable que algunos sistemas RAID de hardware, ya que recibirá advertencias avanzadas cuando un disco esté a punto de fallar, mientras que un RAID de hardware podría informarle solo después del hecho. Hay algunos inconvenientes en un RAID por software, principalmente relacionados con problemas de rendimiento, pero la confiabilidad no es uno de ellos.

De todos modos, independientemente de esto, el enfoque profesional para situaciones como la suya es reemplazar el disco inmediatamente, y esa sería mi reacción también para mi matriz de discos privada (tengo un repuesto para este tipo de situaciones).

Answer

Si te preocupas por tus datos, cambia el disco ahora. Cada subsistema hace todo lo posible para evitar la pérdida de datos, pero no puede hacer mucho. Incluso puede mapear bloques defectuosos: cuando hay uno, habrá otros

Recibiste advertencias masivas sobre problemas inminentes: ignorarlos es simplemente irresponsable con los datos de tus clientes.

Edite, ya que esto es demasiado largo para un comentario:

¿No tengo idea de cuál es realmente tu pregunta? ¿Quieres saber si las advertencias son graves? Sí lo son. ¿Necesitas algo al respecto? Sí, y ahora.

Cuando algunos informes de subsistema indican errores, están ahí y son importantes. Incluso si el sistema todavía es capaz de corregirlos, existe una buena posibilidad de que este ya no sea el caso dentro de dos minutos y el disco se marque como fallido y se desconecte.

Linux md raid es al menos tan confiable como cualquier implementación RAID de hardware, pero consideraría un RAID5 como una opción peligrosa en el mejor de los casos. El problema es que quedará desprotegido durante una restauración, lo cual es una situación muy agotadora para un RAID5. Lo considero más confiable que algunos sistemas RAID de hardware, ya que recibirá advertencias avanzadas cuando un disco esté a punto de fallar, mientras que un RAID de hardware podría informarle solo después del hecho. Hay algunos inconvenientes en un RAID por software, principalmente relacionados con problemas de rendimiento, pero la confiabilidad no es uno de ellos.

De todos modos, independientemente de esto, el enfoque profesional para situaciones como la suya es reemplazar el disco inmediatamente, y esa sería mi reacción también para mi matriz de discos privada (tengo un repuesto para este tipo de situaciones).

Question 2

Esto es de una experiencia de hace aproximadamente 6 años con uno de nuestros servidores Dell: en aquel entonces no usábamos hardware raid, ya que no había posibilidad de detectar fallas de disco de forma remota.

Entonces utilizamos el software raid 1 (md). Poco tiempo después la redada se degradó. Al mirar /var/log/messages, vi que había una lista de errores de IO relacionados con una determinada partición.

Volví a agregar la partición al raid y poco tiempo después fue descartada nuevamente.

Envié al soporte de Dell esa salida de /var/log/messages y obtuve un disco nuevo de inmediato. Esto fue en una versión de Linux no compatible y solo con el nivel de soporte más básico.

Teníamos un par de máquinas más configuradas y nunca volvimos a tener estos problemas (es decir, los discos nunca fallaron). Para mí esto es una prueba de que puedes confiar en md.

Creo que esto sigue siendo válido para el kernel 3.1 (todavía no tengo ninguno de estos).

Answer

Esto es de una experiencia de hace aproximadamente 6 años con uno de nuestros servidores Dell: en aquel entonces no usábamos hardware raid, ya que no había posibilidad de detectar fallas de disco de forma remota.

Entonces utilizamos el software raid 1 (md). Poco tiempo después la redada se degradó. Al mirar /var/log/messages, vi que había una lista de errores de IO relacionados con una determinada partición.

Volví a agregar la partición al raid y poco tiempo después fue descartada nuevamente.

Envié al soporte de Dell esa salida de /var/log/messages y obtuve un disco nuevo de inmediato. Esto fue en una versión de Linux no compatible y solo con el nivel de soporte más básico.

Teníamos un par de máquinas más configuradas y nunca volvimos a tener estos problemas (es decir, los discos nunca fallaron). Para mí esto es una prueba de que puedes confiar en md.

Creo que esto sigue siendo válido para el kernel 3.1 (todavía no tengo ninguno de estos).

Question 3

Hasta donde yo sé, mdadm es una implementación RAID de software sólida que con HD en buen estado rara vez genera errores de ningún tipo, tengo varios servidores con mdadm configurados y nunca obtuve errores de lectura en los archivos de registro.

Verifique el estado de su matriz con:

mdadm --detail /dev/mdX

Sin embargo, le recomiendo encarecidamente que reemplace la unidad responsable de los errores...

Answer

Hasta donde yo sé, mdadm es una implementación RAID de software sólida que con HD en buen estado rara vez genera errores de ningún tipo, tengo varios servidores con mdadm configurados y nunca obtuve errores de lectura en los archivos de registro.

Verifique el estado de su matriz con:

mdadm --detail /dev/mdX

Sin embargo, le recomiendo encarecidamente que reemplace la unidad responsable de los errores...

Robustez de las incursiones de software de Linux

Respuesta1

Respuesta2

Respuesta3

información relacionada