
Este es un sistema Linux Mint 21.1 x64, al que a lo largo de los años se le han agregado discos a matrices RAID hasta que ahora tenemos una matriz de 10 3 TB y una matriz de 5 6 TB. Cuatro HD se salieron de las matrices, dos de cada uno, aparentemente como resultado de una falla en un controlador. Hemos reemplazado los controladores, pero eso no ha restaurado el funcionamiento de las matrices. mdadm --assemble
informa que no se puede iniciar ninguna de las matrices, discos insuficientes (no me sorprende que fallaran dos en cada una); mdadm --run
informa un error de E/S (syslog parece sugerir que esto se debe a que no puede iniciar todas las unidades, pero no hay indicios de que haya intentado iniciar las dos aparentemente insatisfechas), pero aún puedo detectar mdadm --examine
discos fallidos y se ven absolutamente normales. . Aquí se muestra el resultado de una unidad funcional:
mdadm --examine /dev/sda
/dev/sda:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
Name : DataBackup:back (local to host DataBackup)
Creation Time : Mon Feb 15 13:43:15 2021
Raid Level : raid5
Raid Devices : 10
Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
Data Offset : 264192 sectors
Super Offset : 8 sectors
Unused Space : before=264112 sectors, after=944 sectors
State : clean
Device UUID : 6e072616:2f7079b0:b336c1a7:f222c711
Internal Bitmap : 8 sectors from superblock
Update Time : Sun Apr 2 04:30:27 2023
Bad Block Log : 512 entries available at offset 24 sectors
Checksum : 2faf0b93 - correct
Events : 21397
Layout : left-symmetric
Chunk Size : 512K
Device Role : Active device 9
Array State : AAAAAA..AA ('A' == active, '.' == missing, 'R' == replacing)
Y aquí está el resultado de una unidad fallida:
mdadm --examine /dev/sdk
/dev/sdk:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
Name : DataBackup:back (local to host DataBackup)
Creation Time : Mon Feb 15 13:43:15 2021
Raid Level : raid5
Raid Devices : 10
Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
Data Offset : 264192 sectors
Super Offset : 8 sectors
Unused Space : before=264112 sectors, after=944 sectors
State : clean
Device UUID : d62b85bc:fb108c56:4710850c:477c0c06
Internal Bitmap : 8 sectors from superblock
Update Time : Sun Apr 2 04:27:31 2023
Bad Block Log : 512 entries available at offset 24 sectors
Checksum : d53202fe - correct
Events : 21392
Layout : left-symmetric
Chunk Size : 512K
Device Role : Active device 6
Array State : AAAAAAAAAA ('A' == active, '.' == missing, 'R' == replacing)
Editar: Aquí está el informe --examine de la segunda unidad fallida; Como puede ver, falló al mismo tiempo que toda la matriz se salió de línea.
# mdadm --examine /dev/sdl
/dev/sdl:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
Name : DataBackup:back (local to host DataBackup)
Creation Time : Mon Feb 15 13:43:15 2021
Raid Level : raid5
Raid Devices : 10
Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
Data Offset : 264192 sectors
Super Offset : 8 sectors
Unused Space : before=264112 sectors, after=944 sectors
State : clean
Device UUID : 35ebf7d9:55148a4a:e190671d:6db1c2cf
Internal Bitmap : 8 sectors from superblock
Update Time : Sun Apr 2 04:27:31 2023
Bad Block Log : 512 entries available at offset 24 sectors
Checksum : c13b7b79 - correct
Events : 21392
Layout : left-symmetric
Chunk Size : 512K
Device Role : Active device 7
Array State : AAAAAAAAAA ('A' == active, '.' == missing, 'R' == replacing)
La segunda matriz, de 5x6 TB, se desconectó dos minutos después cuando dos discos se apagaron. Los dos discos fallidos en este conjunto y los dos en el otro conjunto, todos conectados a una única tarjeta controladora SATA de 4 puertos que, por supuesto, ahora ha sido reemplazada.
Lo principal que encuentro interesante de esto es que la unidad fallida parece informarse como viva, pero mdadm
no está de acuerdo con ello. journalctl
No parece remontarse al 2 de abril, por lo que es posible que no pueda descubrir qué pasó. ¿Alguien tiene alguna idea sobre lo que puedo hacer para que esta bestia vuelva a estar en línea?
Respuesta1
mdadm
Realice siempre copias de seguridad a nivel de imagen de todas las unidades de la matriz antes de intentar cualquier comando potencialmente destructivo . Con estas copias de seguridad a mano, luego podrá intentar la recuperación en una máquina virtual fuera de la caja.- Examine
Update time
el campo en busca de unidades fallidas en la salida demdadm --examine /dev/sdX
para determinar la secuencia exacta de eventos cuando las unidades se salían de la matriz. A veces, la primera falla de la unidad pasa desapercibida y poner esa unidad antigua en línea resultará en una falla catastrófica al intentar montar un sistema de archivos. - En su caso, ambas unidades fallaron a la vez, por lo que debería ser seguro forzar la conexión de la matriz con
mdadm --assemble --force /dev/mdX
omdadm --assemble --force --scan
. Si no fuera el caso, debe forzar que esté en línea solo la última unidad que se cayó de la matriz especificando las unidades miembro de la matriz paramdadm --assemble --force /dev/mdX /dev/sda /dev/sdb missing /dev/sdd
; tenga en cuenta que el orden de las unidades es importante. - Como pudo hacer que todo funcionara solo con una lista explícita de dispositivos,
assemble
creo que su matriz se encuentra actualmente en un estado degradado con eso/dev/sdh
marcado como fuera de línea. Mire el resultado decat /proc/mdstat
para determinar eso, haga una copia de seguridad, solucione los problemas de su hardware y luego reconstruya su matriz por completo.