RAID-массивы вышли из строя, теперь не перезапускаются; mdadm --examine показывает, что диск исправен, но --assemble не удается из-за отсутствия двух дисков

RAID-массивы вышли из строя, теперь не перезапускаются; mdadm --examine показывает, что диск исправен, но --assemble не удается из-за отсутствия двух дисков

Это система Linux Mint 21.1 x64, в которой на протяжении многих лет диски добавлялись в RAID-массивы, пока у нас не появился один массив из 10 3 ТБ и один массив из 5 6 ТБ. Четыре жестких диска вышли из массивов, по два из каждого, по-видимому, из-за отказа одного контроллера. Мы заменили контроллеры, но это не восстановило работу массивов. mdadm --assembleсообщает о невозможности запустить ни один из массивов, недостаточном количестве дисков (два отказали в каждом, я не удивлен); mdadm --runсообщает об ошибке ввода-вывода (системный журнал, похоже, предполагает, что это связано с тем, что он не может запустить все диски, но нет никаких указаний на то, что он пытался запустить два явно неудачных), но я все еще могу mdadm --examineвывести из строя диски, и они выглядят абсолютно нормально. Вот вывод с работающего диска:

mdadm --examine /dev/sda
/dev/sda:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x1
     Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
           Name : DataBackup:back  (local to host DataBackup)
  Creation Time : Mon Feb 15 13:43:15 2021
     Raid Level : raid5
   Raid Devices : 10

 Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
     Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
  Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
    Data Offset : 264192 sectors
   Super Offset : 8 sectors
   Unused Space : before=264112 sectors, after=944 sectors
          State : clean
    Device UUID : 6e072616:2f7079b0:b336c1a7:f222c711

Internal Bitmap : 8 sectors from superblock
    Update Time : Sun Apr  2 04:30:27 2023
  Bad Block Log : 512 entries available at offset 24 sectors
       Checksum : 2faf0b93 - correct
         Events : 21397

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 9
   Array State : AAAAAA..AA ('A' == active, '.' == missing, 'R' == replacing)

А вот вывод с неисправного диска:

mdadm --examine /dev/sdk
/dev/sdk:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x1
     Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
           Name : DataBackup:back  (local to host DataBackup)
  Creation Time : Mon Feb 15 13:43:15 2021
     Raid Level : raid5
   Raid Devices : 10

 Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
     Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
  Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
    Data Offset : 264192 sectors
   Super Offset : 8 sectors
   Unused Space : before=264112 sectors, after=944 sectors
          State : clean
    Device UUID : d62b85bc:fb108c56:4710850c:477c0c06

Internal Bitmap : 8 sectors from superblock
    Update Time : Sun Apr  2 04:27:31 2023
  Bad Block Log : 512 entries available at offset 24 sectors
       Checksum : d53202fe - correct
         Events : 21392

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 6
   Array State : AAAAAAAAAA ('A' == active, '.' == missing, 'R' == replacing)

Редактировать: Вот отчет --examine со второго неисправного диска; как вы можете видеть, он вышел из строя одновременно с отключением всего массива.

# mdadm --examine /dev/sdl
/dev/sdl:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x1
     Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
           Name : DataBackup:back  (local to host DataBackup)
  Creation Time : Mon Feb 15 13:43:15 2021
     Raid Level : raid5
   Raid Devices : 10

 Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
     Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
  Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
    Data Offset : 264192 sectors
   Super Offset : 8 sectors
   Unused Space : before=264112 sectors, after=944 sectors
          State : clean
    Device UUID : 35ebf7d9:55148a4a:e190671d:6db1c2cf

Internal Bitmap : 8 sectors from superblock
    Update Time : Sun Apr  2 04:27:31 2023
  Bad Block Log : 512 entries available at offset 24 sectors
       Checksum : c13b7b79 - correct
         Events : 21392

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 7
   Array State : AAAAAAAAAA ('A' == active, '.' == missing, 'R' == replacing)

Второй массив, 5x6TB, отключился через две минуты, когда отказали два диска. Два отказавших диска в этом массиве и два в другом массиве, все подключены к одной 4-портовой карте контроллера SATA, которая, конечно, теперь заменена.

Главное, что я нахожу интересным в этом, это то, что отказавший диск, похоже, сообщает о себе как о живом, но mdadmне соглашается с этим. journalctlне похоже, что он был 2 апреля, так что я не смогу узнать, что произошло. Есть у кого-нибудь идеи, что я могу сделать, чтобы вернуть этого зверя в строй?

решение1

  1. Всегда делайте резервные копии на уровне образа всех дисков в массиве, прежде чем пытаться выполнять потенциально разрушительные mdadmкоманды. Имея эти резервные копии под рукой, вы можете позже попытаться выполнить восстановление на виртуальной машине нестандартно.
  2. Проверьте Update timeполе in для отказавших дисков в выходных данных, mdadm --examine /dev/sdXчтобы определить точную последовательность событий, когда диски выпадали из массива. Иногда первый отказ диска остается незамеченным, и включение этого старого диска в оперативный режим приведет к катастрофическому сбою при попытке монтирования файловой системы.
  3. В вашем случае оба диска вышли из строя одновременно, поэтому можно безопасно принудительно перевести массив в режим онлайн с помощью mdadm --assemble --force /dev/mdXили mdadm --assemble --force --scan. Если это не так, следует принудительно перевести в режим онлайн только последний диск, который вышел из массива, указав диски-члены массива для mdadm --assemble --force /dev/mdX /dev/sda /dev/sdb missing /dev/sdd, обратите внимание, что порядок дисков важен.
  4. Поскольку вы смогли запустить все только с явным списком устройств, assembleя считаю, что ваш массив в настоящее время находится в деградированном состоянии с пометкой « /dev/sdhофлайн». Посмотрите на вывод, cat /proc/mdstatчтобы определить это, сделайте резервную копию, устраните неполадки в вашем оборудовании и полностью перестройте ваш массив после этого.

Связанный контент