Сбой устройства в md RAID, когда ATA перестает отвечать

Question

Дельтик, вы неправильно поняли, как mdработает программный RAID Linux ( ).

mdсоздает виртуальное блочное устройство из нескольких устройств или разделов и не имеет представления о том, какие данные вы передаете на виртуальное устройство и с него.
Вы надеялись, что он сможет делать то, для чего не был предназначен.

Ответы

`md`1. Почему неотвечающий диск/раздел не выходит из строя?

Это потому, что mdон понятия не имеет,

диск занят вводом-выводом от чего-то, что mdсамо запросило или
диск был заблокирован из-за каких-то внешних обстоятельств, таких как восстановление после собственной ошибки диска или, в вашем случае, ATA Secure Erase,

поэтому mdподождем, что вернет диск. Диск в конечном итоге не вернул никаких ошибок чтения или записи. Если бы была ошибка чтения, mdона бы автоматически исправилась из четности, а если бы была ошибка записи, mdустройство бы вышло из строя (см. раздел «Восстановление»mdстраница руководства).

Поскольку не было ни ошибки чтения, ни ошибки записи, mdпродолжил использование устройства после того, как ядро дождалось ответа.

2. Могу ли я удалить диск/раздел из массива, пока диск заблокирован?

Нет. /dev/md0Устройство RAID заблокировано и не может быть изменено, пока блокировка не будет снята.

Вы передали флаг -for --failв mdadmрежим "Manage".
Вот пошаговое руководство того, что это на самом деле делает:

Это исходный код того, как работает этот флаг.:

case 'f': /* set faulty */
    /* FIXME check current member */
    if ((sysfd >= 0 && write(sysfd, "faulty", 6) != 6) ||
        (sysfd < 0 && ioctl(fd, SET_DISK_FAULTY,
                rdev))) {
        if (errno == EBUSY)
            busy = 1;
        pr_err("set device faulty failed for %s:  %s\n",
            dv->devname, strerror(errno));
        if (sysfd >= 0)
            close(sysfd);
        goto abort;
    }
    if (sysfd >= 0)
        close(sysfd);
    sysfd = -1;
    count++;
    if (verbose >= 0)
        pr_err("set %s faulty in %s\n",
            dv->devname, devname);
    break;

Обратите внимание, что вызов write(sysfd, "faulty", 6). sysfd— это переменная, заданная ранее в файле:
sysfd = sysfs_open(fd2devnm(fd), dname, "block/dev");

sysfs_open()это функция изэтот файл:

int sysfs_open(char *devnm, char *devname, char *attr)
{
    char fname[50];
    int fd;

    sprintf(fname, "/sys/block/%s/md/", devnm);
    if (devname) {
        strcat(fname, devname);
        strcat(fname, "/");
    }
    strcat(fname, attr);
    fd = open(fname, O_RDWR);
    if (fd < 0 && errno == EACCES)
        fd = open(fname, O_RDONLY);
    return fd;
}

Если вы проследите за функциями, то обнаружите, что mdadm /dev/md0 -f /dev/sdb1по сути это делает следующее:

echo "faulty" > /sys/block/md0/md/dev-sdb1/block/dev

Этот запрос будет ожидать обработки и не будет выполнен немедленно, поскольку /dev/md0заблокирован.

3. Можно ли настроить тайм-аут так, чтобы `md`автоматически отключать диск, не отвечающий на команды ATA?

Да. На самом деле,по умолчанию тайм-аут составляет 30 секунд:

root@node51 [~]# cat /sys/block/sdb/device/timeout
30

Проблема с вашим предположением заключалась в том, что ваш диск на самом деле был занят выполнением команды ATA (в течение 188 минут), поэтому тайм-аут не истек.

Подробную информацию об этом см.Документация по обработке ошибок SCSI ядра Linux.

4. Почему я `md`продолжаю использовать устройство с недействительными данными?

После завершения ATA Secure Erase накопитель не сообщил о каких-либо проблемах, например о прерванной команде, поэтому mdне было причин подозревать наличие какой-либо проблемы.

Более того, в вашем случае использования разделов в качестве устройств RAID вместо целых дисков таблица разделов в памяти ядра не была проинформирована о том, что раздел на очищенном диске исчез, поэтому она mdпродолжала бы обращаться к нему /dev/sdb1, как будто ничего не произошло.

Это изmdстраница руководства:

Очистка и несоответствия

Поскольку устройства хранения данных могут в любой момент вырабатывать плохие блоки, важно регулярно считывать все блоки на всех устройствах в массиве, чтобы обнаружить такие плохие блоки на ранней стадии. Этот процесс называетсячистка.

Массивы md можно очистить, записав либопроверятьилиремонтк файлуmd/sync_actionвsysfsкаталог для устройства.

Запрос очистки заставит md прочитать каждый блок на каждом устройстве в массиве и проверить согласованность данных. Для RAID1 и RAID10 это означает проверку идентичности копий. Для RAID4, RAID5, RAID6 это означает проверку правильности блока четности (или блоков).

Из этого можно сделать вывод, что четность обычно не проверяется при каждом чтении с диска. (Кроме того, проверка четности при каждом чтении сильно повлияла бы на производительность, поскольку увеличилось бы число транзакций, необходимых только для завершения чтения, и выполнялось бы сравнение четности с прочитанными данными.)

При нормальной работе mdпросто предполагает, что считываемые данные являются действительными, что делает его уязвимым длямолчаливое повреждение данных. В вашем случае у вас был целый диск с молчаливо поврежденными данными, потому что вы стерли диск.

Ваша файловая система не знала о повреждении. Вы увидели ошибки ввода/вывода на уровне файловой системы, потому что файловая система не могла понять, почему у нее были плохие данные.

Чтобы избежать скрытого повреждения данных, во-первых,никогда больше не делай того, что ты сделалВо-вторых, рассмотрите возможность использованияЗФС, файловая система, которая фокусируется на целостности данных, а также обнаруживает и исправляет скрытые повреждения данных.

Answer 1

Дельтик, вы неправильно поняли, как mdработает программный RAID Linux ( ).

mdсоздает виртуальное блочное устройство из нескольких устройств или разделов и не имеет представления о том, какие данные вы передаете на виртуальное устройство и с него.
Вы надеялись, что он сможет делать то, для чего не был предназначен.

Ответы

`md`1. Почему неотвечающий диск/раздел не выходит из строя?

Это потому, что mdон понятия не имеет,

диск занят вводом-выводом от чего-то, что mdсамо запросило или
диск был заблокирован из-за каких-то внешних обстоятельств, таких как восстановление после собственной ошибки диска или, в вашем случае, ATA Secure Erase,

поэтому mdподождем, что вернет диск. Диск в конечном итоге не вернул никаких ошибок чтения или записи. Если бы была ошибка чтения, mdона бы автоматически исправилась из четности, а если бы была ошибка записи, mdустройство бы вышло из строя (см. раздел «Восстановление»mdстраница руководства).

Поскольку не было ни ошибки чтения, ни ошибки записи, mdпродолжил использование устройства после того, как ядро дождалось ответа.

2. Могу ли я удалить диск/раздел из массива, пока диск заблокирован?

Нет. /dev/md0Устройство RAID заблокировано и не может быть изменено, пока блокировка не будет снята.

Вы передали флаг -for --failв mdadmрежим "Manage".
Вот пошаговое руководство того, что это на самом деле делает:

Это исходный код того, как работает этот флаг.:

case 'f': /* set faulty */
    /* FIXME check current member */
    if ((sysfd >= 0 && write(sysfd, "faulty", 6) != 6) ||
        (sysfd < 0 && ioctl(fd, SET_DISK_FAULTY,
                rdev))) {
        if (errno == EBUSY)
            busy = 1;
        pr_err("set device faulty failed for %s:  %s\n",
            dv->devname, strerror(errno));
        if (sysfd >= 0)
            close(sysfd);
        goto abort;
    }
    if (sysfd >= 0)
        close(sysfd);
    sysfd = -1;
    count++;
    if (verbose >= 0)
        pr_err("set %s faulty in %s\n",
            dv->devname, devname);
    break;

Обратите внимание, что вызов write(sysfd, "faulty", 6). sysfd— это переменная, заданная ранее в файле:
sysfd = sysfs_open(fd2devnm(fd), dname, "block/dev");

sysfs_open()это функция изэтот файл:

int sysfs_open(char *devnm, char *devname, char *attr)
{
    char fname[50];
    int fd;

    sprintf(fname, "/sys/block/%s/md/", devnm);
    if (devname) {
        strcat(fname, devname);
        strcat(fname, "/");
    }
    strcat(fname, attr);
    fd = open(fname, O_RDWR);
    if (fd < 0 && errno == EACCES)
        fd = open(fname, O_RDONLY);
    return fd;
}

Если вы проследите за функциями, то обнаружите, что mdadm /dev/md0 -f /dev/sdb1по сути это делает следующее:

echo "faulty" > /sys/block/md0/md/dev-sdb1/block/dev

Этот запрос будет ожидать обработки и не будет выполнен немедленно, поскольку /dev/md0заблокирован.

3. Можно ли настроить тайм-аут так, чтобы `md`автоматически отключать диск, не отвечающий на команды ATA?

Да. На самом деле,по умолчанию тайм-аут составляет 30 секунд:

root@node51 [~]# cat /sys/block/sdb/device/timeout
30

Проблема с вашим предположением заключалась в том, что ваш диск на самом деле был занят выполнением команды ATA (в течение 188 минут), поэтому тайм-аут не истек.

Подробную информацию об этом см.Документация по обработке ошибок SCSI ядра Linux.

4. Почему я `md`продолжаю использовать устройство с недействительными данными?

После завершения ATA Secure Erase накопитель не сообщил о каких-либо проблемах, например о прерванной команде, поэтому mdне было причин подозревать наличие какой-либо проблемы.

Более того, в вашем случае использования разделов в качестве устройств RAID вместо целых дисков таблица разделов в памяти ядра не была проинформирована о том, что раздел на очищенном диске исчез, поэтому она mdпродолжала бы обращаться к нему /dev/sdb1, как будто ничего не произошло.

Это изmdстраница руководства:

Очистка и несоответствия

Поскольку устройства хранения данных могут в любой момент вырабатывать плохие блоки, важно регулярно считывать все блоки на всех устройствах в массиве, чтобы обнаружить такие плохие блоки на ранней стадии. Этот процесс называетсячистка.

Массивы md можно очистить, записав либопроверятьилиремонтк файлуmd/sync_actionвsysfsкаталог для устройства.

Запрос очистки заставит md прочитать каждый блок на каждом устройстве в массиве и проверить согласованность данных. Для RAID1 и RAID10 это означает проверку идентичности копий. Для RAID4, RAID5, RAID6 это означает проверку правильности блока четности (или блоков).

Из этого можно сделать вывод, что четность обычно не проверяется при каждом чтении с диска. (Кроме того, проверка четности при каждом чтении сильно повлияла бы на производительность, поскольку увеличилось бы число транзакций, необходимых только для завершения чтения, и выполнялось бы сравнение четности с прочитанными данными.)

При нормальной работе mdпросто предполагает, что считываемые данные являются действительными, что делает его уязвимым длямолчаливое повреждение данных. В вашем случае у вас был целый диск с молчаливо поврежденными данными, потому что вы стерли диск.

Ваша файловая система не знала о повреждении. Вы увидели ошибки ввода/вывода на уровне файловой системы, потому что файловая система не могла понять, почему у нее были плохие данные.

Чтобы избежать скрытого повреждения данных, во-первых,никогда больше не делай того, что ты сделалВо-вторых, рассмотрите возможность использованияЗФС, файловая система, которая фокусируется на целостности данных, а также обнаруживает и исправляет скрытые повреждения данных.

Сбой устройства в md RAID, когда ATA перестает отвечать

ПРЕДУПРЕЖДЕНИЕ

Вопросы

решение1

Ответы

`md`1. Почему неотвечающий диск/раздел не выходит из строя?

2. Могу ли я удалить диск/раздел из массива, пока диск заблокирован?

3. Можно ли настроить тайм-аут так, чтобы `md`автоматически отключать диск, не отвечающий на команды ATA?

4. Почему я `md`продолжаю использовать устройство с недействительными данными?

Очистка и несоответствия

Связанный контент

ПРЕДУПРЕЖДЕНИЕ

Вопросы

решение1

Ответы

md1. Почему неотвечающий диск/раздел не выходит из строя?

2. Могу ли я удалить диск/раздел из массива, пока диск заблокирован?

3. Можно ли настроить тайм-аут так, чтобы mdавтоматически отключать диск, не отвечающий на команды ATA?

4. Почему я mdпродолжаю использовать устройство с недействительными данными?

Очистка и несоответствия

Связанный контент

`md`1. Почему неотвечающий диск/раздел не выходит из строя?

3. Можно ли настроить тайм-аут так, чтобы `md`автоматически отключать диск, не отвечающий на команды ATA?

4. Почему я `md`продолжаю использовать устройство с недействительными данными?