ATA が応答しなくなったときに md RAID のデバイスが故障する

Question

デルティック、Linux ソフトウェア RAID ( md) の仕組みを誤解しています。

md複数のデバイスまたはパーティションから仮想ブロックデバイスを作成し、仮想デバイスとの間で転送されるデータについては認識しません。
あなたは、それが本来意図されていないことができることを期待していました。

回答

1.`md`応答しないドライブ/パーティションが失敗しないのはなぜですか?

これはmd、

ドライブは、mdそれ自体が要求した何かからのI/Oでビジー状態です。
ドライブ自体のエラー回復や、この場合はATA Secure Eraseなどの外部状況によりドライブがブロックされました。

ドライブが何を返すか待つことにしますmd。ドライブは結局、読み取りエラーも書き込みエラーも返しませんでした。読み取りエラーがあった場合は、mdパリティから自動的に修正され、書き込みエラーがあった場合は、mdデバイスが故障します（「リカバリ」セクションを参照してください）。mdマニュアルページ）。

読み取りエラーも書き込みエラーもなかったため、mdカーネルが応答を待った後、デバイスの使用を継続しました。

2. ドライブがブロックされている間に、アレイからドライブ/パーティションを削除できますか?

いいえ。RAID/dev/md0デバイスはブロックされており、ブロックが解除されるまで変更できません。

-fまたはフラグを「管理」モード --failに渡しました。これが実際に何を行うかのウォークスルーは次のとおりです。mdadm

これはそのフラグがどのように機能するかを示すソースコードです:

case 'f': /* set faulty */
    /* FIXME check current member */
    if ((sysfd >= 0 && write(sysfd, "faulty", 6) != 6) ||
        (sysfd < 0 && ioctl(fd, SET_DISK_FAULTY,
                rdev))) {
        if (errno == EBUSY)
            busy = 1;
        pr_err("set device faulty failed for %s:  %s\n",
            dv->devname, strerror(errno));
        if (sysfd >= 0)
            close(sysfd);
        goto abort;
    }
    if (sysfd >= 0)
        close(sysfd);
    sysfd = -1;
    count++;
    if (verbose >= 0)
        pr_err("set %s faulty in %s\n",
            dv->devname, devname);
    break;

呼び出しwrite(sysfd, "faulty", 6). sysfdは、ファイル内の前のほうで設定された変数であることに注意してください。
sysfd = sysfs_open(fd2devnm(fd), dname, "block/dev");

sysfs_open()は、このファイル:

int sysfs_open(char *devnm, char *devname, char *attr)
{
    char fname[50];
    int fd;

    sprintf(fname, "/sys/block/%s/md/", devnm);
    if (devname) {
        strcat(fname, devname);
        strcat(fname, "/");
    }
    strcat(fname, attr);
    fd = open(fname, O_RDWR);
    if (fd < 0 && errno == EACCES)
        fd = open(fname, O_RDONLY);
    return fd;
}

関数を追ってみると、mdadm /dev/md0 -f /dev/sdb1基本的には次のようになります。

echo "faulty" > /sys/block/md0/md/dev-sdb1/block/dev

このリクエストはブロックされているため待機中となり、すぐには実行されません/dev/md0。

`md`3. ATA コマンドに応答しないドライブを自動的に失敗させるようにタイムアウトを設定できますか?

はい。実際、デフォルトでは、タイムアウトは30秒です:

root@node51 [~]# cat /sys/block/sdb/device/timeout
30

あなたの仮定の問題は、ドライブが実際には ATA コマンドの実行でビジー状態 (188 分間) だったため、タイムアウトになっていなかったことです。

詳細については、Linux カーネル SCSI エラー処理ドキュメント。

`md`4.無効なデータがあるデバイスを使い続けるのはなぜですか?

ATA Secure Erase が完了したとき、ドライブはコマンドの中止などの問題を報告しなかったため、md問題があると疑う理由はありませんでした。

さらに、ディスク全体ではなくパーティションを RAID デバイスとして使用している場合、カーネルのメモリ内パーティションテーブルには消去されたドライブ上のパーティションがなくなったことが通知されないため、何も問題がないかのようにmdアクセスを続けます/dev/sdb1。

これはmdマニュアルページ:

スクラブとミスマッチ

ストレージデバイスはいつでも不良ブロックを発生させる可能性があるため、アレイ内のすべてのデバイスのすべてのブロックを定期的に読み取り、不良ブロックを早期に検出することが重要です。このプロセスはこすり洗い。

md配列は、次のいずれかの方法で消去できます。チェックまたは修理ファイルにmd/同期アクションの中にsysfsデバイスのディレクトリ。

スクラブを要求すると、md はアレイ内のすべてのデバイス上のすべてのブロックを読み取り、データの整合性をチェックします。RAID1 および RAID10 の場合、これはコピーが同一であることを確認することを意味します。RAID4、RAID5、RAID6 の場合、これはパリティブロック (またはブロック群) が正しいことを確認することを意味します。

このことから、パリティは通常、ディスク読み取りごとにチェックされるわけではないことがわかります。(さらに、読み取りごとにパリティをチェックすると、読み取りを完了するために必要なトランザクションが増加し、パリティと読み取られたデータの比較が実行されるため、パフォーマンスに大きな負担がかかります。)

通常の操作では、md読み込んだデータが有効であると想定し、サイレントデータ破損あなたの場合、ドライブを消去したため、ドライブ全体のデータが気づかないうちに破損していました。

ファイルシステムは破損を認識しませんでした。ファイルシステムが不良データの原因を理解できなかったため、ファイルシステムレベルで入出力エラーが発生しました。

サイレントデータ破損を回避するには、まず、二度と同じことをしないでください次に、ZFSデータの整合性に重点を置き、サイレントなデータ破損を検出して修正するファイルシステムです。

Answer 1

デルティック、Linux ソフトウェア RAID ( md) の仕組みを誤解しています。

md複数のデバイスまたはパーティションから仮想ブロックデバイスを作成し、仮想デバイスとの間で転送されるデータについては認識しません。
あなたは、それが本来意図されていないことができることを期待していました。

回答

1.`md`応答しないドライブ/パーティションが失敗しないのはなぜですか?

これはmd、

ドライブは、mdそれ自体が要求した何かからのI/Oでビジー状態です。
ドライブ自体のエラー回復や、この場合はATA Secure Eraseなどの外部状況によりドライブがブロックされました。

ドライブが何を返すか待つことにしますmd。ドライブは結局、読み取りエラーも書き込みエラーも返しませんでした。読み取りエラーがあった場合は、mdパリティから自動的に修正され、書き込みエラーがあった場合は、mdデバイスが故障します（「リカバリ」セクションを参照してください）。mdマニュアルページ）。

読み取りエラーも書き込みエラーもなかったため、mdカーネルが応答を待った後、デバイスの使用を継続しました。

2. ドライブがブロックされている間に、アレイからドライブ/パーティションを削除できますか?

いいえ。RAID/dev/md0デバイスはブロックされており、ブロックが解除されるまで変更できません。

-fまたはフラグを「管理」モード --failに渡しました。これが実際に何を行うかのウォークスルーは次のとおりです。mdadm

これはそのフラグがどのように機能するかを示すソースコードです:

case 'f': /* set faulty */
    /* FIXME check current member */
    if ((sysfd >= 0 && write(sysfd, "faulty", 6) != 6) ||
        (sysfd < 0 && ioctl(fd, SET_DISK_FAULTY,
                rdev))) {
        if (errno == EBUSY)
            busy = 1;
        pr_err("set device faulty failed for %s:  %s\n",
            dv->devname, strerror(errno));
        if (sysfd >= 0)
            close(sysfd);
        goto abort;
    }
    if (sysfd >= 0)
        close(sysfd);
    sysfd = -1;
    count++;
    if (verbose >= 0)
        pr_err("set %s faulty in %s\n",
            dv->devname, devname);
    break;

呼び出しwrite(sysfd, "faulty", 6). sysfdは、ファイル内の前のほうで設定された変数であることに注意してください。
sysfd = sysfs_open(fd2devnm(fd), dname, "block/dev");

sysfs_open()は、このファイル:

int sysfs_open(char *devnm, char *devname, char *attr)
{
    char fname[50];
    int fd;

    sprintf(fname, "/sys/block/%s/md/", devnm);
    if (devname) {
        strcat(fname, devname);
        strcat(fname, "/");
    }
    strcat(fname, attr);
    fd = open(fname, O_RDWR);
    if (fd < 0 && errno == EACCES)
        fd = open(fname, O_RDONLY);
    return fd;
}

関数を追ってみると、mdadm /dev/md0 -f /dev/sdb1基本的には次のようになります。

echo "faulty" > /sys/block/md0/md/dev-sdb1/block/dev

このリクエストはブロックされているため待機中となり、すぐには実行されません/dev/md0。

`md`3. ATA コマンドに応答しないドライブを自動的に失敗させるようにタイムアウトを設定できますか?

はい。実際、デフォルトでは、タイムアウトは30秒です:

root@node51 [~]# cat /sys/block/sdb/device/timeout
30

あなたの仮定の問題は、ドライブが実際には ATA コマンドの実行でビジー状態 (188 分間) だったため、タイムアウトになっていなかったことです。

詳細については、Linux カーネル SCSI エラー処理ドキュメント。

`md`4.無効なデータがあるデバイスを使い続けるのはなぜですか?

ATA Secure Erase が完了したとき、ドライブはコマンドの中止などの問題を報告しなかったため、md問題があると疑う理由はありませんでした。

さらに、ディスク全体ではなくパーティションを RAID デバイスとして使用している場合、カーネルのメモリ内パーティションテーブルには消去されたドライブ上のパーティションがなくなったことが通知されないため、何も問題がないかのようにmdアクセスを続けます/dev/sdb1。

これはmdマニュアルページ:

スクラブとミスマッチ

ストレージデバイスはいつでも不良ブロックを発生させる可能性があるため、アレイ内のすべてのデバイスのすべてのブロックを定期的に読み取り、不良ブロックを早期に検出することが重要です。このプロセスはこすり洗い。

md配列は、次のいずれかの方法で消去できます。チェックまたは修理ファイルにmd/同期アクションの中にsysfsデバイスのディレクトリ。

スクラブを要求すると、md はアレイ内のすべてのデバイス上のすべてのブロックを読み取り、データの整合性をチェックします。RAID1 および RAID10 の場合、これはコピーが同一であることを確認することを意味します。RAID4、RAID5、RAID6 の場合、これはパリティブロック (またはブロック群) が正しいことを確認することを意味します。

このことから、パリティは通常、ディスク読み取りごとにチェックされるわけではないことがわかります。(さらに、読み取りごとにパリティをチェックすると、読み取りを完了するために必要なトランザクションが増加し、パリティと読み取られたデータの比較が実行されるため、パフォーマンスに大きな負担がかかります。)

通常の操作では、md読み込んだデータが有効であると想定し、サイレントデータ破損あなたの場合、ドライブを消去したため、ドライブ全体のデータが気づかないうちに破損していました。

ファイルシステムは破損を認識しませんでした。ファイルシステムが不良データの原因を理解できなかったため、ファイルシステムレベルで入出力エラーが発生しました。

サイレントデータ破損を回避するには、まず、二度と同じことをしないでください次に、ZFSデータの整合性に重点を置き、サイレントなデータ破損を検出して修正するファイルシステムです。

ATA が応答しなくなったときに md RAID のデバイスが故障する

警告

質問

答え1

回答

1.`md`応答しないドライブ/パーティションが失敗しないのはなぜですか?

2. ドライブがブロックされている間に、アレイからドライブ/パーティションを削除できますか?

`md`3. ATA コマンドに応答しないドライブを自動的に失敗させるようにタイムアウトを設定できますか?

`md`4.無効なデータがあるデバイスを使い続けるのはなぜですか?

スクラブとミスマッチ

関連情報

警告

質問

答え1

回答

1.md応答しないドライブ/パーティションが失敗しないのはなぜですか?

2. ドライブがブロックされている間に、アレイからドライブ/パーティションを削除できますか?

md3. ATA コマンドに応答しないドライブを自動的に失敗させるようにタイムアウトを設定できますか?

md4.無効なデータがあるデバイスを使い続けるのはなぜですか?

スクラブとミスマッチ

関連情報

1.`md`応答しないドライブ/パーティションが失敗しないのはなぜですか?

`md`3. ATA コマンドに応答しないドライブを自動的に失敗させるようにタイムアウトを設定できますか?

`md`4.無効なデータがあるデバイスを使い続けるのはなぜですか?