當 ATA 停止回應時，md RAID 中的裝置發生故障

Question

德爾蒂克，您誤解了 Linux 軟體 RAID ( md) 的工作原理。

md從多個設備或分割區建立虛擬區塊設備，並且不知道您正在向虛擬設備傳輸什麼資料或從虛擬設備傳輸什麼資料。
你希望它可以做一些它沒有設計要做的事情。

答案

`md`1. 為什麼沒有回應的磁碟機/分割區不會故障？

這是因為md不知道是否

驅動器正忙於處理md自身請求的 I/O 或
由於某些外部情況（例如驅動器本身的錯誤恢復或在您的情況下是 ATA 安全擦除），因此驅動器被阻止，

因此md將等待查看驅動器返回的內容。驅動器最終沒有傳回任何讀取或寫入錯誤。如果存在讀取錯誤，md則會自動從奇偶校驗中修復它，如果存在寫入錯誤，md則會導致裝置故障（請參閱「復原」部分）md手冊頁）。

由於既沒有讀取錯誤也沒有寫入錯誤，因此md在核心等待設備回應後繼續使用該設備。

2. 當磁碟機被封鎖時，我可以從陣列中刪除該磁碟機/分割區嗎？

不可以/dev/md0。

您將-f或--fail標誌傳遞給mdadm“管理”模式。
以下是其實際作用的演練：

這是該標誌如何運作的源代碼:

case 'f': /* set faulty */
    /* FIXME check current member */
    if ((sysfd >= 0 && write(sysfd, "faulty", 6) != 6) ||
        (sysfd < 0 && ioctl(fd, SET_DISK_FAULTY,
                rdev))) {
        if (errno == EBUSY)
            busy = 1;
        pr_err("set device faulty failed for %s:  %s\n",
            dv->devname, strerror(errno));
        if (sysfd >= 0)
            close(sysfd);
        goto abort;
    }
    if (sysfd >= 0)
        close(sysfd);
    sysfd = -1;
    count++;
    if (verbose >= 0)
        pr_err("set %s faulty in %s\n",
            dv->devname, devname);
    break;

注意來電write(sysfd, "faulty", 6)。 sysfd是檔案前面設定的變數：
sysfd = sysfs_open(fd2devnm(fd), dname, "block/dev");

sysfs_open()是一個函數這個文件:

int sysfs_open(char *devnm, char *devname, char *attr)
{
    char fname[50];
    int fd;

    sprintf(fname, "/sys/block/%s/md/", devnm);
    if (devname) {
        strcat(fname, devname);
        strcat(fname, "/");
    }
    strcat(fname, attr);
    fd = open(fname, O_RDWR);
    if (fd < 0 && errno == EACCES)
        fd = open(fname, O_RDONLY);
    return fd;
}

如果您遵循這些函數，您會發現它mdadm /dev/md0 -f /dev/sdb1基本上是這樣做的：

echo "faulty" > /sys/block/md0/md/dev-sdb1/block/dev

該請求將等待，不會立即通過，因為/dev/md0被封鎖。

3. 是否可以設定逾時，以便`md`自動使不回應 ATA 指令的磁碟機發生故障？

是的。實際上，預設情況下，超時時間為 30 秒:

root@node51 [~]# cat /sys/block/sdb/device/timeout
30

您的假設的問題在於您的驅動器實際上正忙於運行 ATA 命令（持續 188 分鐘），因此它沒有超時。

有關這方面的詳細信息，請參閱Linux 核心 SCSI 錯誤處理文檔。

4. 為什麼`md`繼續使用資料無效的設備？

當 ATA 安全性擦除完成時，磁碟機沒有報告任何問題，例如中止的命令，因此md沒有理由懷疑有問題。

此外，在您使用分割區作為 RAID 裝置而不是整個磁碟的情況下，核心的記憶體分割表不會被告知已擦除磁碟機上的分割區已消失，因此md將繼續存取您的分割區，/dev/sdb1就像沒有任何問題一樣。

這是來自md手冊頁:

擦洗和不匹配

由於儲存裝置隨時可能產生壞區塊，因此定期讀取陣列中所有裝置上的所有區塊以儘早捕獲此類壞區塊非常有價值。這個過程稱為擦洗。

md 陣列可以透過寫入來擦除查看或者維修到文件md/sync_action在裡面系統檔案系統設備的目錄。

請求清理將導致 md 讀取陣列中每個裝置上的每個區塊，並檢查資料是否一致。對於 RAID1 和 RAID10，這表示檢查副本是否相同。對於 RAID4、RAID5、RAID6，這表示檢查奇偶校驗區塊（或多個區塊）是否正確。

我們可以由此推斷，奇偶校驗通常不會在每次磁碟讀取時進行檢查。（此外，每次讀取時檢查奇偶校驗都會增加完成讀取所需的事務並執行奇偶校驗與資料讀取的比較，從而對效能造成很大的負擔。）

在正常操作下，md只是假設它正在讀取的資料是有效的，使其容易受到無聲資料損壞。就您而言，由於您擦除了驅動器，整個驅動器中的資料都已悄然損壞。

您的檔案系統不知道損壞。您在檔案系統層級看到輸入/輸出錯誤，因為檔案系統無法理解為什麼它有錯誤的資料。

為了避免靜默資料損壞，首先，永遠不要再做你做過的事。其次，考慮使用ZFS，一個專注於資料完整性並檢測和糾正靜默資料損壞的檔案系統。

Answer 1

德爾蒂克，您誤解了 Linux 軟體 RAID ( md) 的工作原理。

md從多個設備或分割區建立虛擬區塊設備，並且不知道您正在向虛擬設備傳輸什麼資料或從虛擬設備傳輸什麼資料。
你希望它可以做一些它沒有設計要做的事情。

答案

`md`1. 為什麼沒有回應的磁碟機/分割區不會故障？

這是因為md不知道是否

驅動器正忙於處理md自身請求的 I/O 或
由於某些外部情況（例如驅動器本身的錯誤恢復或在您的情況下是 ATA 安全擦除），因此驅動器被阻止，

因此md將等待查看驅動器返回的內容。驅動器最終沒有傳回任何讀取或寫入錯誤。如果存在讀取錯誤，md則會自動從奇偶校驗中修復它，如果存在寫入錯誤，md則會導致裝置故障（請參閱「復原」部分）md手冊頁）。

由於既沒有讀取錯誤也沒有寫入錯誤，因此md在核心等待設備回應後繼續使用該設備。

2. 當磁碟機被封鎖時，我可以從陣列中刪除該磁碟機/分割區嗎？

不可以/dev/md0。

您將-f或--fail標誌傳遞給mdadm“管理”模式。
以下是其實際作用的演練：

這是該標誌如何運作的源代碼:

case 'f': /* set faulty */
    /* FIXME check current member */
    if ((sysfd >= 0 && write(sysfd, "faulty", 6) != 6) ||
        (sysfd < 0 && ioctl(fd, SET_DISK_FAULTY,
                rdev))) {
        if (errno == EBUSY)
            busy = 1;
        pr_err("set device faulty failed for %s:  %s\n",
            dv->devname, strerror(errno));
        if (sysfd >= 0)
            close(sysfd);
        goto abort;
    }
    if (sysfd >= 0)
        close(sysfd);
    sysfd = -1;
    count++;
    if (verbose >= 0)
        pr_err("set %s faulty in %s\n",
            dv->devname, devname);
    break;

注意來電write(sysfd, "faulty", 6)。 sysfd是檔案前面設定的變數：
sysfd = sysfs_open(fd2devnm(fd), dname, "block/dev");

sysfs_open()是一個函數這個文件:

int sysfs_open(char *devnm, char *devname, char *attr)
{
    char fname[50];
    int fd;

    sprintf(fname, "/sys/block/%s/md/", devnm);
    if (devname) {
        strcat(fname, devname);
        strcat(fname, "/");
    }
    strcat(fname, attr);
    fd = open(fname, O_RDWR);
    if (fd < 0 && errno == EACCES)
        fd = open(fname, O_RDONLY);
    return fd;
}

如果您遵循這些函數，您會發現它mdadm /dev/md0 -f /dev/sdb1基本上是這樣做的：

echo "faulty" > /sys/block/md0/md/dev-sdb1/block/dev

該請求將等待，不會立即通過，因為/dev/md0被封鎖。

3. 是否可以設定逾時，以便`md`自動使不回應 ATA 指令的磁碟機發生故障？

是的。實際上，預設情況下，超時時間為 30 秒:

root@node51 [~]# cat /sys/block/sdb/device/timeout
30

您的假設的問題在於您的驅動器實際上正忙於運行 ATA 命令（持續 188 分鐘），因此它沒有超時。

有關這方面的詳細信息，請參閱Linux 核心 SCSI 錯誤處理文檔。

4. 為什麼`md`繼續使用資料無效的設備？

當 ATA 安全性擦除完成時，磁碟機沒有報告任何問題，例如中止的命令，因此md沒有理由懷疑有問題。

此外，在您使用分割區作為 RAID 裝置而不是整個磁碟的情況下，核心的記憶體分割表不會被告知已擦除磁碟機上的分割區已消失，因此md將繼續存取您的分割區，/dev/sdb1就像沒有任何問題一樣。

這是來自md手冊頁:

擦洗和不匹配

由於儲存裝置隨時可能產生壞區塊，因此定期讀取陣列中所有裝置上的所有區塊以儘早捕獲此類壞區塊非常有價值。這個過程稱為擦洗。

md 陣列可以透過寫入來擦除查看或者維修到文件md/sync_action在裡面系統檔案系統設備的目錄。

請求清理將導致 md 讀取陣列中每個裝置上的每個區塊，並檢查資料是否一致。對於 RAID1 和 RAID10，這表示檢查副本是否相同。對於 RAID4、RAID5、RAID6，這表示檢查奇偶校驗區塊（或多個區塊）是否正確。

我們可以由此推斷，奇偶校驗通常不會在每次磁碟讀取時進行檢查。（此外，每次讀取時檢查奇偶校驗都會增加完成讀取所需的事務並執行奇偶校驗與資料讀取的比較，從而對效能造成很大的負擔。）

在正常操作下，md只是假設它正在讀取的資料是有效的，使其容易受到無聲資料損壞。就您而言，由於您擦除了驅動器，整個驅動器中的資料都已悄然損壞。

您的檔案系統不知道損壞。您在檔案系統層級看到輸入/輸出錯誤，因為檔案系統無法理解為什麼它有錯誤的資料。

為了避免靜默資料損壞，首先，永遠不要再做你做過的事。其次，考慮使用ZFS，一個專注於資料完整性並檢測和糾正靜默資料損壞的檔案系統。

當 ATA 停止回應時，md RAID 中的裝置發生故障

警告

問題

答案1

答案

`md`1. 為什麼沒有回應的磁碟機/分割區不會故障？

2. 當磁碟機被封鎖時，我可以從陣列中刪除該磁碟機/分割區嗎？

3. 是否可以設定逾時，以便`md`自動使不回應 ATA 指令的磁碟機發生故障？

4. 為什麼`md`繼續使用資料無效的設備？

擦洗和不匹配

相關內容

警告

問題

答案1

答案

md1. 為什麼沒有回應的磁碟機/分割區不會故障？

2. 當磁碟機被封鎖時，我可以從陣列中刪除該磁碟機/分割區嗎？

3. 是否可以設定逾時，以便md自動使不回應 ATA 指令的磁碟機發生故障？

4. 為什麼md繼續使用資料無效的設備？

擦洗和不匹配

相關內容

`md`1. 為什麼沒有回應的磁碟機/分割區不會故障？

3. 是否可以設定逾時，以便`md`自動使不回應 ATA 指令的磁碟機發生故障？

4. 為什麼`md`繼續使用資料無效的設備？