Falha no dispositivo no md RAID quando o ATA para de responder

Question

Deltik, você não entendeu como o Linux Software RAID ( md) funciona.

mdcria um dispositivo de bloco virtual a partir de vários dispositivos ou partições e não tem conhecimento de quais dados você está transferindo de e para o dispositivo virtual.
Você esperava que ele pudesse fazer coisas para as quais não foi projetado.

Respostas

1. Por que `md`a unidade/partição que não responde falha?

Isso ocorre porque mdnão tem ideia se

a unidade está ocupada com E/S de algo que mdsolicitou ou
a unidade foi bloqueada devido a alguma circunstância externa, como a recuperação de erros da própria unidade ou, no seu caso, um ATA Secure Erase,

então mdvamos esperar para ver o que a unidade retorna. A unidade eventualmente não retornou nenhum erro de leitura ou gravação. Se houvesse um erro de leitura, o mddispositivo teria sido corrigido automaticamente da paridade, e se houvesse um erro de gravação, mdo dispositivo teria falhado (veja a seção "Recuperação" domdpágina de manual).

Como não houve erro de leitura nem de gravação, mdcontinuei usando o dispositivo depois que o kernel esperou que ele respondesse.

2. Posso eliminar a unidade/partição do array enquanto a unidade estiver bloqueada?

Não. O /dev/md0dispositivo RAID está bloqueado e não pode ser modificado até que o bloqueio seja limpo.

Você passou o sinalizador -fou --failpara o mdadmmodo "Gerenciar".
Aqui está um passo a passo do que isso realmente faz:

Este é o código fonte de como esse sinalizador funciona:

case 'f': /* set faulty */
    /* FIXME check current member */
    if ((sysfd >= 0 && write(sysfd, "faulty", 6) != 6) ||
        (sysfd < 0 && ioctl(fd, SET_DISK_FAULTY,
                rdev))) {
        if (errno == EBUSY)
            busy = 1;
        pr_err("set device faulty failed for %s:  %s\n",
            dv->devname, strerror(errno));
        if (sysfd >= 0)
            close(sysfd);
        goto abort;
    }
    if (sysfd >= 0)
        close(sysfd);
    sysfd = -1;
    count++;
    if (verbose >= 0)
        pr_err("set %s faulty in %s\n",
            dv->devname, devname);
    break;

Observe a chamada write(sysfd, "faulty", 6). sysfdé uma variável definida anteriormente no arquivo:
sysfd = sysfs_open(fd2devnm(fd), dname, "block/dev");

sysfs_open()é uma função deeste ficheiro:

int sysfs_open(char *devnm, char *devname, char *attr)
{
    char fname[50];
    int fd;

    sprintf(fname, "/sys/block/%s/md/", devnm);
    if (devname) {
        strcat(fname, devname);
        strcat(fname, "/");
    }
    strcat(fname, attr);
    fd = open(fname, O_RDWR);
    if (fd < 0 && errno == EACCES)
        fd = open(fname, O_RDONLY);
    return fd;
}

Se você seguir as funções, descobrirá que mdadm /dev/md0 -f /dev/sdb1basicamente faz isso:

echo "faulty" > /sys/block/md0/md/dev-sdb1/block/dev

Esta solicitação estará aguardando e não será processada imediatamente porque /dev/md0está bloqueada.

3. Um tempo limite pode ser configurado para `md`falhar automaticamente em uma unidade que não está respondendo aos comandos ATA?

Sim. Na verdade,por padrão, o tempo limite é de 30 segundos:

root@node51 [~]# cat /sys/block/sdb/device/timeout
30

O problema com sua suposição era que sua unidade estava realmente ocupada executando um comando ATA (por 188 minutos), portanto o tempo limite não estava esgotado.

Para obter detalhes sobre isso, consulte oDocumentação de tratamento de erros SCSI do kernel Linux.

4. Por que `md`continua usando um dispositivo com dados inválidos?

Quando o ATA Secure Erase foi concluído, a unidade não relatou nenhum problema, como um comando abortado, portanto mdnão havia motivo para suspeitar que havia um problema.

Além disso, no caso de usar partições como dispositivos RAID em vez de discos inteiros, a tabela de partições na memória do kernel não foi informada de que a partição na unidade apagada havia desaparecido, então mdcontinuaria a acessá-la /dev/sdb1como se nada estivesse errado.

Isto é domdpágina de manual:

Esfregando e incompatibilidades

Como os dispositivos de armazenamento podem desenvolver blocos defeituosos a qualquer momento, é valioso ler regularmente todos os blocos em todos os dispositivos de uma matriz para detectar esses blocos defeituosos antecipadamente. Este processo é chamadoesfregando.

Matrizes md podem ser limpas escrevendoverificarourepararpara o arquivomd/sync_actionnosysfsdiretório do dispositivo.

Solicitar uma limpeza fará com que o md leia todos os blocos em todos os dispositivos da matriz e verifique se os dados são consistentes. Para RAID1 e RAID10, isso significa verificar se as cópias são idênticas. Para RAID4, RAID5, RAID6, isso significa verificar se o bloco de paridade está (ou os blocos estão) corretos.

Podemos inferir disso que a paridade normalmente não é verificada em todas as leituras do disco. (Além disso, verificar a paridade em cada leitura seria muito desgastante para o desempenho, pois aumentaria as transações necessárias apenas para concluir uma leitura e executaria a comparação da paridade com os dados lidos.)

Em operação normal, mdapenas assume que os dados que está lendo são válidos, deixando-o vulnerável acorrupção silenciosa de dados. No seu caso, você tinha uma unidade inteira com dados corrompidos silenciosamente porque apagou a unidade.

Seu sistema de arquivos não estava ciente da corrupção. Você viu erros de entrada/saída no nível do sistema de arquivos porque o sistema de arquivos não conseguia entender por que havia dados incorretos.

Para evitar a corrupção silenciosa de dados, primeiro,nunca mais faça o que você fez. Em segundo lugar, considere usarZFS, um sistema de arquivos que se concentra na integridade dos dados e detecta e corrige a corrupção silenciosa de dados.

Answer 1

Deltik, você não entendeu como o Linux Software RAID ( md) funciona.

mdcria um dispositivo de bloco virtual a partir de vários dispositivos ou partições e não tem conhecimento de quais dados você está transferindo de e para o dispositivo virtual.
Você esperava que ele pudesse fazer coisas para as quais não foi projetado.

Respostas

1. Por que `md`a unidade/partição que não responde falha?

Isso ocorre porque mdnão tem ideia se

a unidade está ocupada com E/S de algo que mdsolicitou ou
a unidade foi bloqueada devido a alguma circunstância externa, como a recuperação de erros da própria unidade ou, no seu caso, um ATA Secure Erase,

então mdvamos esperar para ver o que a unidade retorna. A unidade eventualmente não retornou nenhum erro de leitura ou gravação. Se houvesse um erro de leitura, o mddispositivo teria sido corrigido automaticamente da paridade, e se houvesse um erro de gravação, mdo dispositivo teria falhado (veja a seção "Recuperação" domdpágina de manual).

Como não houve erro de leitura nem de gravação, mdcontinuei usando o dispositivo depois que o kernel esperou que ele respondesse.

2. Posso eliminar a unidade/partição do array enquanto a unidade estiver bloqueada?

Não. O /dev/md0dispositivo RAID está bloqueado e não pode ser modificado até que o bloqueio seja limpo.

Você passou o sinalizador -fou --failpara o mdadmmodo "Gerenciar".
Aqui está um passo a passo do que isso realmente faz:

Este é o código fonte de como esse sinalizador funciona:

case 'f': /* set faulty */
    /* FIXME check current member */
    if ((sysfd >= 0 && write(sysfd, "faulty", 6) != 6) ||
        (sysfd < 0 && ioctl(fd, SET_DISK_FAULTY,
                rdev))) {
        if (errno == EBUSY)
            busy = 1;
        pr_err("set device faulty failed for %s:  %s\n",
            dv->devname, strerror(errno));
        if (sysfd >= 0)
            close(sysfd);
        goto abort;
    }
    if (sysfd >= 0)
        close(sysfd);
    sysfd = -1;
    count++;
    if (verbose >= 0)
        pr_err("set %s faulty in %s\n",
            dv->devname, devname);
    break;

Observe a chamada write(sysfd, "faulty", 6). sysfdé uma variável definida anteriormente no arquivo:
sysfd = sysfs_open(fd2devnm(fd), dname, "block/dev");

sysfs_open()é uma função deeste ficheiro:

int sysfs_open(char *devnm, char *devname, char *attr)
{
    char fname[50];
    int fd;

    sprintf(fname, "/sys/block/%s/md/", devnm);
    if (devname) {
        strcat(fname, devname);
        strcat(fname, "/");
    }
    strcat(fname, attr);
    fd = open(fname, O_RDWR);
    if (fd < 0 && errno == EACCES)
        fd = open(fname, O_RDONLY);
    return fd;
}

Se você seguir as funções, descobrirá que mdadm /dev/md0 -f /dev/sdb1basicamente faz isso:

echo "faulty" > /sys/block/md0/md/dev-sdb1/block/dev

Esta solicitação estará aguardando e não será processada imediatamente porque /dev/md0está bloqueada.

3. Um tempo limite pode ser configurado para `md`falhar automaticamente em uma unidade que não está respondendo aos comandos ATA?

Sim. Na verdade,por padrão, o tempo limite é de 30 segundos:

root@node51 [~]# cat /sys/block/sdb/device/timeout
30

O problema com sua suposição era que sua unidade estava realmente ocupada executando um comando ATA (por 188 minutos), portanto o tempo limite não estava esgotado.

Para obter detalhes sobre isso, consulte oDocumentação de tratamento de erros SCSI do kernel Linux.

4. Por que `md`continua usando um dispositivo com dados inválidos?

Quando o ATA Secure Erase foi concluído, a unidade não relatou nenhum problema, como um comando abortado, portanto mdnão havia motivo para suspeitar que havia um problema.

Além disso, no caso de usar partições como dispositivos RAID em vez de discos inteiros, a tabela de partições na memória do kernel não foi informada de que a partição na unidade apagada havia desaparecido, então mdcontinuaria a acessá-la /dev/sdb1como se nada estivesse errado.

Isto é domdpágina de manual:

Esfregando e incompatibilidades

Como os dispositivos de armazenamento podem desenvolver blocos defeituosos a qualquer momento, é valioso ler regularmente todos os blocos em todos os dispositivos de uma matriz para detectar esses blocos defeituosos antecipadamente. Este processo é chamadoesfregando.

Matrizes md podem ser limpas escrevendoverificarourepararpara o arquivomd/sync_actionnosysfsdiretório do dispositivo.

Solicitar uma limpeza fará com que o md leia todos os blocos em todos os dispositivos da matriz e verifique se os dados são consistentes. Para RAID1 e RAID10, isso significa verificar se as cópias são idênticas. Para RAID4, RAID5, RAID6, isso significa verificar se o bloco de paridade está (ou os blocos estão) corretos.

Podemos inferir disso que a paridade normalmente não é verificada em todas as leituras do disco. (Além disso, verificar a paridade em cada leitura seria muito desgastante para o desempenho, pois aumentaria as transações necessárias apenas para concluir uma leitura e executaria a comparação da paridade com os dados lidos.)

Em operação normal, mdapenas assume que os dados que está lendo são válidos, deixando-o vulnerável acorrupção silenciosa de dados. No seu caso, você tinha uma unidade inteira com dados corrompidos silenciosamente porque apagou a unidade.

Seu sistema de arquivos não estava ciente da corrupção. Você viu erros de entrada/saída no nível do sistema de arquivos porque o sistema de arquivos não conseguia entender por que havia dados incorretos.

Para evitar a corrupção silenciosa de dados, primeiro,nunca mais faça o que você fez. Em segundo lugar, considere usarZFS, um sistema de arquivos que se concentra na integridade dos dados e detecta e corrige a corrupção silenciosa de dados.

Falha no dispositivo no md RAID quando o ATA para de responder

AVISO

Questões

Responder1

Respostas

1. Por que `md`a unidade/partição que não responde falha?

2. Posso eliminar a unidade/partição do array enquanto a unidade estiver bloqueada?

3. Um tempo limite pode ser configurado para `md`falhar automaticamente em uma unidade que não está respondendo aos comandos ATA?

4. Por que `md`continua usando um dispositivo com dados inválidos?

Esfregando e incompatibilidades

informação relacionada

AVISO

Questões

Responder1

Respostas

1. Por que mda unidade/partição que não responde falha?

2. Posso eliminar a unidade/partição do array enquanto a unidade estiver bloqueada?

3. Um tempo limite pode ser configurado para mdfalhar automaticamente em uma unidade que não está respondendo aos comandos ATA?

4. Por que mdcontinua usando um dispositivo com dados inválidos?

Esfregando e incompatibilidades

informação relacionada

1. Por que `md`a unidade/partição que não responde falha?

3. Um tempo limite pode ser configurado para `md`falhar automaticamente em uma unidade que não está respondendo aos comandos ATA?

4. Por que `md`continua usando um dispositivo com dados inválidos?