Las matrices RAID fallaron, ahora no se reiniciarán; mdadm --examine muestra que la unidad está en buen estado pero --assemble falla y faltan dos discos

Las matrices RAID fallaron, ahora no se reiniciarán; mdadm --examine muestra que la unidad está en buen estado pero --assemble falla y faltan dos discos

Este es un sistema Linux Mint 21.1 x64, al que a lo largo de los años se le han agregado discos a matrices RAID hasta que ahora tenemos una matriz de 10 3 TB y una matriz de 5 6 TB. Cuatro HD se salieron de las matrices, dos de cada uno, aparentemente como resultado de una falla en un controlador. Hemos reemplazado los controladores, pero eso no ha restaurado el funcionamiento de las matrices. mdadm --assembleinforma que no se puede iniciar ninguna de las matrices, discos insuficientes (no me sorprende que fallaran dos en cada una); mdadm --runinforma un error de E/S (syslog parece sugerir que esto se debe a que no puede iniciar todas las unidades, pero no hay indicios de que haya intentado iniciar las dos aparentemente insatisfechas), pero aún puedo detectar mdadm --examinediscos fallidos y se ven absolutamente normales. . Aquí se muestra el resultado de una unidad funcional:

mdadm --examine /dev/sda
/dev/sda:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x1
     Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
           Name : DataBackup:back  (local to host DataBackup)
  Creation Time : Mon Feb 15 13:43:15 2021
     Raid Level : raid5
   Raid Devices : 10

 Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
     Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
  Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
    Data Offset : 264192 sectors
   Super Offset : 8 sectors
   Unused Space : before=264112 sectors, after=944 sectors
          State : clean
    Device UUID : 6e072616:2f7079b0:b336c1a7:f222c711

Internal Bitmap : 8 sectors from superblock
    Update Time : Sun Apr  2 04:30:27 2023
  Bad Block Log : 512 entries available at offset 24 sectors
       Checksum : 2faf0b93 - correct
         Events : 21397

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 9
   Array State : AAAAAA..AA ('A' == active, '.' == missing, 'R' == replacing)

Y aquí está el resultado de una unidad fallida:

mdadm --examine /dev/sdk
/dev/sdk:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x1
     Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
           Name : DataBackup:back  (local to host DataBackup)
  Creation Time : Mon Feb 15 13:43:15 2021
     Raid Level : raid5
   Raid Devices : 10

 Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
     Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
  Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
    Data Offset : 264192 sectors
   Super Offset : 8 sectors
   Unused Space : before=264112 sectors, after=944 sectors
          State : clean
    Device UUID : d62b85bc:fb108c56:4710850c:477c0c06

Internal Bitmap : 8 sectors from superblock
    Update Time : Sun Apr  2 04:27:31 2023
  Bad Block Log : 512 entries available at offset 24 sectors
       Checksum : d53202fe - correct
         Events : 21392

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 6
   Array State : AAAAAAAAAA ('A' == active, '.' == missing, 'R' == replacing)

Editar: Aquí está el informe --examine de la segunda unidad fallida; Como puede ver, falló al mismo tiempo que toda la matriz se salió de línea.

# mdadm --examine /dev/sdl
/dev/sdl:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x1
     Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
           Name : DataBackup:back  (local to host DataBackup)
  Creation Time : Mon Feb 15 13:43:15 2021
     Raid Level : raid5
   Raid Devices : 10

 Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
     Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
  Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
    Data Offset : 264192 sectors
   Super Offset : 8 sectors
   Unused Space : before=264112 sectors, after=944 sectors
          State : clean
    Device UUID : 35ebf7d9:55148a4a:e190671d:6db1c2cf

Internal Bitmap : 8 sectors from superblock
    Update Time : Sun Apr  2 04:27:31 2023
  Bad Block Log : 512 entries available at offset 24 sectors
       Checksum : c13b7b79 - correct
         Events : 21392

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 7
   Array State : AAAAAAAAAA ('A' == active, '.' == missing, 'R' == replacing)

La segunda matriz, de 5x6 TB, se desconectó dos minutos después cuando dos discos se apagaron. Los dos discos fallidos en este conjunto y los dos en el otro conjunto, todos conectados a una única tarjeta controladora SATA de 4 puertos que, por supuesto, ahora ha sido reemplazada.

Lo principal que encuentro interesante de esto es que la unidad fallida parece informarse como viva, pero mdadmno está de acuerdo con ello. journalctlNo parece remontarse al 2 de abril, por lo que es posible que no pueda descubrir qué pasó. ¿Alguien tiene alguna idea sobre lo que puedo hacer para que esta bestia vuelva a estar en línea?

Respuesta1

  1. mdadmRealice siempre copias de seguridad a nivel de imagen de todas las unidades de la matriz antes de intentar cualquier comando potencialmente destructivo . Con estas copias de seguridad a mano, luego podrá intentar la recuperación en una máquina virtual fuera de la caja.
  2. Examine Update timeel campo en busca de unidades fallidas en la salida de mdadm --examine /dev/sdXpara determinar la secuencia exacta de eventos cuando las unidades se salían de la matriz. A veces, la primera falla de la unidad pasa desapercibida y poner esa unidad antigua en línea resultará en una falla catastrófica al intentar montar un sistema de archivos.
  3. En su caso, ambas unidades fallaron a la vez, por lo que debería ser seguro forzar la conexión de la matriz con mdadm --assemble --force /dev/mdXo mdadm --assemble --force --scan. Si no fuera el caso, debe forzar que esté en línea solo la última unidad que se cayó de la matriz especificando las unidades miembro de la matriz para mdadm --assemble --force /dev/mdX /dev/sda /dev/sdb missing /dev/sdd; tenga en cuenta que el orden de las unidades es importante.
  4. Como pudo hacer que todo funcionara solo con una lista explícita de dispositivos, assemblecreo que su matriz se encuentra actualmente en un estado degradado con eso /dev/sdhmarcado como fuera de línea. Mire el resultado de cat /proc/mdstatpara determinar eso, haga una copia de seguridad, solucione los problemas de su hardware y luego reconstruya su matriz por completo.

información relacionada