Dispositivo fallido en md RAID cuando ATA deja de responder

Question

Deltik, no ha entendido bien cómo mdfunciona el software RAID ( ) de Linux.

mdcrea un dispositivo de bloque virtual a partir de múltiples dispositivos o particiones y no tiene conocimiento de qué datos está transfiriendo hacia y desde el dispositivo virtual.
Esperabas que pudiera hacer cosas para las que no fue diseñado.

Respuestas

1. ¿Por qué no `md`falla la unidad/partición que no responde?

Esto se debe a que mdno tiene idea de si

la unidad está ocupada con E/S de algo que mdél mismo solicitó o
la unidad se bloqueó debido a alguna circunstancia externa, como la propia recuperación de errores de la unidad o, en su caso, un borrado seguro ATA,

Así que mdesperaré a ver qué devuelve el disco. La unidad finalmente no arrojó ningún error de lectura o escritura. Si hubiera un error de lectura, mdlo habría arreglado automáticamente desde la paridad, y si hubiera un error de escritura, mdhabría fallado el dispositivo (ver la sección "Recuperación" delmdpágina de manual).

Como no hubo ningún error de lectura ni de escritura, mdcontinuó usando el dispositivo después de que el kernel esperó a que respondiera.

2. ¿Puedo quitar la unidad/partición del arreglo mientras la unidad está bloqueada?

No. El /dev/md0dispositivo RAID está bloqueado y no se puede modificar hasta que se borre el bloqueo.

Pasaste la bandera -fo --failal mdadmmodo "Administrar".
Aquí hay un tutorial de lo que realmente hace:

Este es el código fuente de cómo funciona esa bandera.:

case 'f': /* set faulty */
    /* FIXME check current member */
    if ((sysfd >= 0 && write(sysfd, "faulty", 6) != 6) ||
        (sysfd < 0 && ioctl(fd, SET_DISK_FAULTY,
                rdev))) {
        if (errno == EBUSY)
            busy = 1;
        pr_err("set device faulty failed for %s:  %s\n",
            dv->devname, strerror(errno));
        if (sysfd >= 0)
            close(sysfd);
        goto abort;
    }
    if (sysfd >= 0)
        close(sysfd);
    sysfd = -1;
    count++;
    if (verbose >= 0)
        pr_err("set %s faulty in %s\n",
            dv->devname, devname);
    break;

Note la llamada write(sysfd, "faulty", 6). sysfdes una variable establecida anteriormente en el archivo:
sysfd = sysfs_open(fd2devnm(fd), dname, "block/dev");

sysfs_open()es una función deEste archivo:

int sysfs_open(char *devnm, char *devname, char *attr)
{
    char fname[50];
    int fd;

    sprintf(fname, "/sys/block/%s/md/", devnm);
    if (devname) {
        strcat(fname, devname);
        strcat(fname, "/");
    }
    strcat(fname, attr);
    fd = open(fname, O_RDWR);
    if (fd < 0 && errno == EACCES)
        fd = open(fname, O_RDONLY);
    return fd;
}

Si sigues las funciones, encontrarás que mdadm /dev/md0 -f /dev/sdb1básicamente hace esto:

echo "faulty" > /sys/block/md0/md/dev-sdb1/block/dev

Esta solicitud estará esperando y no se procesará de inmediato porque /dev/md0está bloqueada.

3. ¿Se puede configurar un tiempo de espera para que `md`falle automáticamente una unidad que no responde a los comandos ATA?

Sí. De hecho,De forma predeterminada, el tiempo de espera es de 30 segundos.:

root@node51 [~]# cat /sys/block/sdb/device/timeout
30

El problema con su suposición fue que su unidad estaba realmente ocupada ejecutando un comando ATA (durante 188 minutos), por lo que no se agotó el tiempo de espera.

Para obtener detalles sobre esto, consulte elDocumentación de manejo de errores SCSI del kernel de Linux.

4. ¿Por qué se `md`sigue utilizando un dispositivo con datos no válidos?

Cuando finalizó el borrado seguro de ATA, la unidad no informó ningún problema, como un comando abortado, por lo que mdno tenía motivos para sospechar que había un problema.

Además, en su caso de utilizar particiones como dispositivos RAID en lugar de discos completos, la tabla de particiones en memoria del kernel no fue informada de que la partición en la unidad borrada había desaparecido, por lo que mdcontinuaría accediendo a usted /dev/sdb1como si nada estuviera mal.

Esto es de lamdpágina de manual:

Depuración y desajustes

Como los dispositivos de almacenamiento pueden desarrollar bloques defectuosos en cualquier momento, es valioso leer periódicamente todos los bloques en todos los dispositivos de una matriz para detectar dichos bloques defectuosos a tiempo. Este proceso se llamadepuración.

Las matrices md se pueden borrar escribiendo:controlarorepararal archivomd/sync_actionen elsistemasdirectorio del dispositivo.

Solicitar una limpieza hará que md lea cada bloque en cada dispositivo de la matriz y verifique que los datos sean consistentes. Para RAID1 y RAID10, esto significa comprobar que las copias sean idénticas. Para RAID4, RAID5, RAID6, esto significa verificar que el bloque de paridad sea (o los bloques sean) correctos.

De esto podemos inferir que la paridad normalmente no se verifica en cada lectura de disco. (Además, verificar la paridad en cada lectura sería muy exigente para el rendimiento al aumentar las transacciones necesarias solo para completar una lectura y ejecutar la comparación de la paridad con los datos leídos).

Bajo operación normal, mdsimplemente asume que los datos que está leyendo son válidos, dejándolo vulnerable acorrupción de datos silenciosa. En su caso, tenía un disco completo de datos corruptos silenciosamente porque lo limpió.

Su sistema de archivos no estaba al tanto de la corrupción. Vio errores de entrada/salida a nivel del sistema de archivos porque el sistema de archivos no podía entender por qué tenía datos incorrectos.

Para evitar la corrupción silenciosa de los datos, primero,nunca vuelvas a hacer lo que hiciste. En segundo lugar, considere usarZFS, un sistema de archivos que se centra en la integridad de los datos y detecta y corrige la corrupción silenciosa de los datos.

Answer 1

Deltik, no ha entendido bien cómo mdfunciona el software RAID ( ) de Linux.

mdcrea un dispositivo de bloque virtual a partir de múltiples dispositivos o particiones y no tiene conocimiento de qué datos está transfiriendo hacia y desde el dispositivo virtual.
Esperabas que pudiera hacer cosas para las que no fue diseñado.

Respuestas

1. ¿Por qué no `md`falla la unidad/partición que no responde?

Esto se debe a que mdno tiene idea de si

la unidad está ocupada con E/S de algo que mdél mismo solicitó o
la unidad se bloqueó debido a alguna circunstancia externa, como la propia recuperación de errores de la unidad o, en su caso, un borrado seguro ATA,

Así que mdesperaré a ver qué devuelve el disco. La unidad finalmente no arrojó ningún error de lectura o escritura. Si hubiera un error de lectura, mdlo habría arreglado automáticamente desde la paridad, y si hubiera un error de escritura, mdhabría fallado el dispositivo (ver la sección "Recuperación" delmdpágina de manual).

Como no hubo ningún error de lectura ni de escritura, mdcontinuó usando el dispositivo después de que el kernel esperó a que respondiera.

2. ¿Puedo quitar la unidad/partición del arreglo mientras la unidad está bloqueada?

No. El /dev/md0dispositivo RAID está bloqueado y no se puede modificar hasta que se borre el bloqueo.

Pasaste la bandera -fo --failal mdadmmodo "Administrar".
Aquí hay un tutorial de lo que realmente hace:

Este es el código fuente de cómo funciona esa bandera.:

case 'f': /* set faulty */
    /* FIXME check current member */
    if ((sysfd >= 0 && write(sysfd, "faulty", 6) != 6) ||
        (sysfd < 0 && ioctl(fd, SET_DISK_FAULTY,
                rdev))) {
        if (errno == EBUSY)
            busy = 1;
        pr_err("set device faulty failed for %s:  %s\n",
            dv->devname, strerror(errno));
        if (sysfd >= 0)
            close(sysfd);
        goto abort;
    }
    if (sysfd >= 0)
        close(sysfd);
    sysfd = -1;
    count++;
    if (verbose >= 0)
        pr_err("set %s faulty in %s\n",
            dv->devname, devname);
    break;

Note la llamada write(sysfd, "faulty", 6). sysfdes una variable establecida anteriormente en el archivo:
sysfd = sysfs_open(fd2devnm(fd), dname, "block/dev");

sysfs_open()es una función deEste archivo:

int sysfs_open(char *devnm, char *devname, char *attr)
{
    char fname[50];
    int fd;

    sprintf(fname, "/sys/block/%s/md/", devnm);
    if (devname) {
        strcat(fname, devname);
        strcat(fname, "/");
    }
    strcat(fname, attr);
    fd = open(fname, O_RDWR);
    if (fd < 0 && errno == EACCES)
        fd = open(fname, O_RDONLY);
    return fd;
}

Si sigues las funciones, encontrarás que mdadm /dev/md0 -f /dev/sdb1básicamente hace esto:

echo "faulty" > /sys/block/md0/md/dev-sdb1/block/dev

Esta solicitud estará esperando y no se procesará de inmediato porque /dev/md0está bloqueada.

3. ¿Se puede configurar un tiempo de espera para que `md`falle automáticamente una unidad que no responde a los comandos ATA?

Sí. De hecho,De forma predeterminada, el tiempo de espera es de 30 segundos.:

root@node51 [~]# cat /sys/block/sdb/device/timeout
30

El problema con su suposición fue que su unidad estaba realmente ocupada ejecutando un comando ATA (durante 188 minutos), por lo que no se agotó el tiempo de espera.

Para obtener detalles sobre esto, consulte elDocumentación de manejo de errores SCSI del kernel de Linux.

4. ¿Por qué se `md`sigue utilizando un dispositivo con datos no válidos?

Cuando finalizó el borrado seguro de ATA, la unidad no informó ningún problema, como un comando abortado, por lo que mdno tenía motivos para sospechar que había un problema.

Además, en su caso de utilizar particiones como dispositivos RAID en lugar de discos completos, la tabla de particiones en memoria del kernel no fue informada de que la partición en la unidad borrada había desaparecido, por lo que mdcontinuaría accediendo a usted /dev/sdb1como si nada estuviera mal.

Esto es de lamdpágina de manual:

Depuración y desajustes

Como los dispositivos de almacenamiento pueden desarrollar bloques defectuosos en cualquier momento, es valioso leer periódicamente todos los bloques en todos los dispositivos de una matriz para detectar dichos bloques defectuosos a tiempo. Este proceso se llamadepuración.

Las matrices md se pueden borrar escribiendo:controlarorepararal archivomd/sync_actionen elsistemasdirectorio del dispositivo.

Solicitar una limpieza hará que md lea cada bloque en cada dispositivo de la matriz y verifique que los datos sean consistentes. Para RAID1 y RAID10, esto significa comprobar que las copias sean idénticas. Para RAID4, RAID5, RAID6, esto significa verificar que el bloque de paridad sea (o los bloques sean) correctos.

De esto podemos inferir que la paridad normalmente no se verifica en cada lectura de disco. (Además, verificar la paridad en cada lectura sería muy exigente para el rendimiento al aumentar las transacciones necesarias solo para completar una lectura y ejecutar la comparación de la paridad con los datos leídos).

Bajo operación normal, mdsimplemente asume que los datos que está leyendo son válidos, dejándolo vulnerable acorrupción de datos silenciosa. En su caso, tenía un disco completo de datos corruptos silenciosamente porque lo limpió.

Su sistema de archivos no estaba al tanto de la corrupción. Vio errores de entrada/salida a nivel del sistema de archivos porque el sistema de archivos no podía entender por qué tenía datos incorrectos.

Para evitar la corrupción silenciosa de los datos, primero,nunca vuelvas a hacer lo que hiciste. En segundo lugar, considere usarZFS, un sistema de archivos que se centra en la integridad de los datos y detecta y corrige la corrupción silenciosa de los datos.

Dispositivo fallido en md RAID cuando ATA deja de responder

ADVERTENCIA

Preguntas

Respuesta1

Respuestas

1. ¿Por qué no `md`falla la unidad/partición que no responde?

2. ¿Puedo quitar la unidad/partición del arreglo mientras la unidad está bloqueada?

3. ¿Se puede configurar un tiempo de espera para que `md`falle automáticamente una unidad que no responde a los comandos ATA?

4. ¿Por qué se `md`sigue utilizando un dispositivo con datos no válidos?

Depuración y desajustes

información relacionada

ADVERTENCIA

Preguntas

Respuesta1

Respuestas

1. ¿Por qué no mdfalla la unidad/partición que no responde?

2. ¿Puedo quitar la unidad/partición del arreglo mientras la unidad está bloqueada?

3. ¿Se puede configurar un tiempo de espera para que mdfalle automáticamente una unidad que no responde a los comandos ATA?

4. ¿Por qué se mdsigue utilizando un dispositivo con datos no válidos?

Depuración y desajustes

información relacionada

1. ¿Por qué no `md`falla la unidad/partición que no responde?

3. ¿Se puede configurar un tiempo de espera para que `md`falle automáticamente una unidad que no responde a los comandos ATA?

4. ¿Por qué se `md`sigue utilizando un dispositivo con datos no válidos?