DL380 G5, RAID5, ext3, RAID falló

DL380 G5, RAID5, ext3, RAID falló

Disponemos de un antiguo servidor HP DL380G5, con 5 discos SCSI de 300 GB de 3,5'' en una matriz RAID5, en una bahía externa, formateado como un volumen lógico con sistema de archivos ext3, que alberga 1,2 TB de datos confidenciales de pacientes clínicos.

Dos discos mostraron una falla predictiva en hpacucli, así que reemplacé uno de ellos primero y vi que estaba bien, pero no vi que también dijera "Listo para reconstruir". También cambié el segundo por completo descuido y ahora dice que el RAID ha FALLADO.

Devolví el disco antiguo, intenté reiniciar el servidor pero ahora me pone en modo de recuperación durante el arranque y dice que no puede encontrar el volumen lógico.

¿Puedo hacer algo para intentar restaurar esto? Desafortunadamente no tenemos una copia de seguridad. ¡Cualquier ayuda sería realmente apreciada!

Estaba pensando en devolver AMBOS discos antiguos, ¿hay alguna posibilidad de que esto recupere el RAID?

Respuesta1

Lo lamento. Pero esto es un error del operador.

Tenía dos discos defectuosos en una matriz RAID5 y extrajo más discos de los que la matriz podía soportar.

Hacer esto sin copias de seguridad es el mayor error.

Debe comunicarse con una empresa de recuperación de datos para intentar recuperar los datos de la unidad lógica rota.

Respuesta2

No vuelva a encender el sistema. Apágalo, llama a un servicio de recuperación de datos. Existen una serie de servicios que permiten la recuperación remota de este tipo de fallos. En este punto, lo único que puedes hacer es empeorar las cosas.

Esto a menudo implica conectar todas las unidades directamente a un HBA en buen estado (¡no a una tarjeta RAID u otro controlador!) e iniciar una imagen de Linux descargable específica con herramientas de administración remota. Luego, la empresa accede de forma remota al sistema, evalúa el estado del disco y recupera los metadatos RAID restantes. Utilizando software propietario, pueden volver a ensamblar un disco RAID virtual (detalle técnico: a menudo algo que se conecta al sistema estándar de mapeo de dispositivos Linux). Esto luego expone el software RAID de solo lectura (sin acelerador RAID SoC). Los siguientes pasos son verificar que los datos no estén dañados más allá de su uso y clonar el disco virtual en un disco nuevo para completar la recuperación de datos. Después de eso, podrá preocuparse por hacer que el sistema vuelva a funcionar.

Si bien no voy a nombrar ningún servicio aquí, la mayoría de ellos son fáciles de encontrar, y para aquellos con servicios remotos (ahorrándole el viaje de ida y vuelta de enviarles las unidades RAID + unidad de recuperación y esperar la recuperación + clonación y luego los envían de vuelta) usted obtiene el beneficio de que los datos nunca salen de sus instalaciones.


Una pequeña buena noticia: siempre que el controlador RAID (o usted) no haya escrito ningún dato nuevo en ninguno de los discos y la advertencia previa a la falla no sea una advertencia de falla, existe prácticamente una probabilidad del 99,9999%. un buen equipo de recuperación de datos puede restaurarlos todos y, además, razonablemente rápido.

Respuesta3

Re: restaurar discos antiguos.

Dado que su RAID está completamente inactivo tal como está, tiene poco que perder al volver a instalar las dos unidades anteriores a la falla.

Instálelos en los compartimentos originales.

Recuerde que son pre-fallo y no fallan directamente, por lo que existe una buena posibilidad de que se ejecuten durante el tiempo suficiente para rescatar sus datos.

Existe la posibilidad de que la incursión simplemente no se realice, y una pequeña posibilidad de que el controlador solicite "reiniciar" la incursión (elija NO/CANCELAR) y una pequeña posibilidad de que el controlador de la incursión reinicie automáticamente la incursión, lo que anularía cualquier valor. agregado por una empresa de recuperación de datos.

Entonces, si surge el RAID, su máxima prioridad es obtener los datos. Eso significa tener al menos 1,2 TB de espacio disponible y listo para copiar datos, y una herramienta como robocopyo xcopy32o en su caso de Linux rsync lista para ejecutarse. No querrás perder el tiempo leyendo páginas de manual y descubriendo la sintaxis si tus unidades están desperdiciando sus últimos minutos.


Una vez que sus datos estén seguros, vuelva a crear el raid como raid6 con las nuevas unidades. Reducirá 300 GB de capacidad, pero obtendrá una tolerancia de dos unidades. O agregue una unidad adicional y considere una incursión10 en 6 unidades. O considere retirar esta máquina por completo; el G5 tiene más de 10 años y ya no es adecuado para tareas de producción importantes.

Y no intente iniciar el sistema, pero también configure una solución de respaldo adecuada. Habrá una próxima vez.

información relacionada