Linux - 使用 GPT 修復 RAID1 陣列上的壞塊

Question 1

坦白說，所有這些「刺激產業」的答案都是瘋狂的。他們面臨（可能是隱藏的）檔案系統損壞的風險。如果資料已經消失了，因為該磁碟儲存了唯一的副本，這是合理的。但鏡子上有一個完美的副本。

您只需要讓 mdraid 擦洗鏡子即可。它會注意到壞扇區，並自動重寫它。

# echo 'check' > /sys/block/mdX/md/sync_action    # use 'repair' instead for older kernels

您需要在其中放置正確的設備（例如，md0 而不是 mdX）。這將需要一段時間，因為預設情況下它會處理整個陣列。在足夠新的核心上，您可以先將磁區號寫入sync_min/sync_max，以將其限制為僅數組的一部分。

這是一個安全的操作。您可以在所有 mdraid 裝置上執行此操作。事實上，你應該定期在所有 mdraid 裝置上執行此操作。您的發行版可能附帶一個 cronjob 來處理這個問題，也許您需要做一些事情來啟用它？

適用於系統上所有 RAID 設備的腳本

不久前，我編寫了這個腳本來「修復」系統上的所有 RAID 裝置。這是為較舊的核心版本編寫的，其中只有“修復”才能修復壞扇區；現在只需進行檢查就足夠了（修復在較新的核心上仍然可以正常工作，但它也會重新複製/重建奇偶校驗，這並不總是您想要的，尤其是在閃存驅動器上）

#!/bin/bash

save="$(tput sc)";
clear="$(tput rc)$(tput el)";
for sync in /sys/block/md*/md/sync_action; do
    md="$(echo "$sync" | cut -d/ -f4)"
    cmpl="/sys/block/$md/md/sync_completed"

    # check current state and get it repairing.
    read current < "$sync"
    case "$current" in
        idle)
            echo 'repair' > "$sync"
            true
            ;;
        repair)
            echo "WARNING: $md already repairing"
            ;;
        check)
            echo "WARNING: $md checking, aborting check and starting repair"
            echo 'idle' > "$sync"
            echo 'repair' > "$sync"
            ;;
        *)
            echo "ERROR: $md in unknown state $current. ABORT."
            exit 1
            ;;
    esac

    echo -n "Repair $md...$save" >&2
    read current < "$sync"
    while [ "$current" != "idle" ]; do
        read stat < "$cmpl"
        echo -n "$clear $stat" >&2
        sleep 1
        read current < "$sync"
    done
    echo "$clear done." >&2;
done

for dev in /dev/sd?; do
    echo "Starting offline data collection for $dev."
    smartctl -t offline "$dev"
done

如果你想代替check，repair那麼這個（未經測試的）第一個塊應該可以工作：

    case "$current" in
        idle)
            echo 'check' > "$sync"
            true
            ;;
        repair|check)
            echo "NOTE: $md $current already in progress."
            ;;
        *)
            echo "ERROR: $md in unknown state $current. ABORT."
            exit 1
            ;;
    esac

Answer

坦白說，所有這些「刺激產業」的答案都是瘋狂的。他們面臨（可能是隱藏的）檔案系統損壞的風險。如果資料已經消失了，因為該磁碟儲存了唯一的副本，這是合理的。但鏡子上有一個完美的副本。

您只需要讓 mdraid 擦洗鏡子即可。它會注意到壞扇區，並自動重寫它。

# echo 'check' > /sys/block/mdX/md/sync_action    # use 'repair' instead for older kernels

您需要在其中放置正確的設備（例如，md0 而不是 mdX）。這將需要一段時間，因為預設情況下它會處理整個陣列。在足夠新的核心上，您可以先將磁區號寫入sync_min/sync_max，以將其限制為僅數組的一部分。

這是一個安全的操作。您可以在所有 mdraid 裝置上執行此操作。事實上，你應該定期在所有 mdraid 裝置上執行此操作。您的發行版可能附帶一個 cronjob 來處理這個問題，也許您需要做一些事情來啟用它？

適用於系統上所有 RAID 設備的腳本

不久前，我編寫了這個腳本來「修復」系統上的所有 RAID 裝置。這是為較舊的核心版本編寫的，其中只有“修復”才能修復壞扇區；現在只需進行檢查就足夠了（修復在較新的核心上仍然可以正常工作，但它也會重新複製/重建奇偶校驗，這並不總是您想要的，尤其是在閃存驅動器上）

#!/bin/bash

save="$(tput sc)";
clear="$(tput rc)$(tput el)";
for sync in /sys/block/md*/md/sync_action; do
    md="$(echo "$sync" | cut -d/ -f4)"
    cmpl="/sys/block/$md/md/sync_completed"

    # check current state and get it repairing.
    read current < "$sync"
    case "$current" in
        idle)
            echo 'repair' > "$sync"
            true
            ;;
        repair)
            echo "WARNING: $md already repairing"
            ;;
        check)
            echo "WARNING: $md checking, aborting check and starting repair"
            echo 'idle' > "$sync"
            echo 'repair' > "$sync"
            ;;
        *)
            echo "ERROR: $md in unknown state $current. ABORT."
            exit 1
            ;;
    esac

    echo -n "Repair $md...$save" >&2
    read current < "$sync"
    while [ "$current" != "idle" ]; do
        read stat < "$cmpl"
        echo -n "$clear $stat" >&2
        sleep 1
        read current < "$sync"
    done
    echo "$clear done." >&2;
done

for dev in /dev/sd?; do
    echo "Starting offline data collection for $dev."
    smartctl -t offline "$dev"
done

如果你想代替check，repair那麼這個（未經測試的）第一個塊應該可以工作：

    case "$current" in
        idle)
            echo 'check' > "$sync"
            true
            ;;
        repair|check)
            echo "NOTE: $md $current already in progress."
            ;;
        *)
            echo "ERROR: $md in unknown state $current. ABORT."
            exit 1
            ;;
    esac

Question 2

我剛剛在 RAID1 陣列上遇到了幾乎相同的問題。壞磁區位於其中一個分割區的開頭 - /dev/sdb2 的第 16 區。我按照上面的說明進行操作：在驗證檔案系統未使用邏輯區塊 2 並小心地以正確的方式進行 dd 查找和跳過之後，並將 1 個檔案系統區塊歸零：

# dd if=/dev/zero of=/dev/md0 bs=4096 count=1 seek=2

這是做什麼的？它沒有修復壞扇區。我現在知道，這是因為 /dev/md0 沒有直接對應到 /dev/sdb2，您必須考慮 RAID 資料偏移！下面詳細介紹這一點。它所做的只是我的文件系統上的一個小但可能具有毀滅性的糞便。事實證明 /dev/md0 的邏輯區塊 2 包含有用的檔案系統元數據，並且在兩個磁碟上都很好，直到我拉屎了兩個都透過寫入 /dev/md0 進行複製。幸運的是， e2fsck -y /dev/md0 解決了這個問題（在發出大量驚人的輸出之後），沒有明顯的資料遺失。經驗教訓：如果 debugfs icheck 顯示“未找到區塊”，並不一定意味著相應的磁區未被使用。

回到資料偏移量：使用 mdadm 找出偏移量，如下所示：

# mdadm --examine /dev/sdb2
/dev/sdb2:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : ef7934b9:24696df9:b89ff03e:b4e5a05b
           Name : XXXXXXXX
  Creation Time : Sat Sep  1 01:20:22 2012
     Raid Level : raid1
   Raid Devices : 2

 Avail Dev Size : 1953241856 (931.38 GiB 1000.06 GB)
     Array Size : 976620736 (931.38 GiB 1000.06 GB)
  Used Dev Size : 1953241472 (931.38 GiB 1000.06 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
          State : clean
    Device UUID : f3b5d515:446d4225:c2191fa0:9a9847b8

    Update Time : Thu Sep  6 12:11:24 2012
       Checksum : abb47d8b - correct
         Events : 54


    Device Role : Active device 0
    Array State : AA ('A' == active, '.' == missing)

在本例中，資料偏移量為 262144 個磁區，每區 512 位元組。如果您從 /dev/md0 進行 dd 並將其與偏移量為 131072K 的原始分割區中的資料進行比較，您會發現它們相符。因此，就我而言，/dev/sdb2 的邏輯區塊 2（磁區 16--23）甚至不在檔案系統中；它們位於 RAID 超級區塊中，您可以在此處閱讀： https://raid.wiki.kernel.org/index.php/RAID_superblock_formats- 對於版本 1.2，它由 256 位元組 + 陣列中每個裝置 2 位元組組成，全部從 4096 位元組開始，所以在我的例子中，沒有使用壞磁區。 /dev/sdc2（RAID1 陣列的另一半）的相應扇區為零，因此我認為這樣做是安全的：

# dd if=/dev/zero of=/dev/sdb2 bs=4096 count=1 seek=2

有效！

Answer

我剛剛在 RAID1 陣列上遇到了幾乎相同的問題。壞磁區位於其中一個分割區的開頭 - /dev/sdb2 的第 16 區。我按照上面的說明進行操作：在驗證檔案系統未使用邏輯區塊 2 並小心地以正確的方式進行 dd 查找和跳過之後，並將 1 個檔案系統區塊歸零：

# dd if=/dev/zero of=/dev/md0 bs=4096 count=1 seek=2

這是做什麼的？它沒有修復壞扇區。我現在知道，這是因為 /dev/md0 沒有直接對應到 /dev/sdb2，您必須考慮 RAID 資料偏移！下面詳細介紹這一點。它所做的只是我的文件系統上的一個小但可能具有毀滅性的糞便。事實證明 /dev/md0 的邏輯區塊 2 包含有用的檔案系統元數據，並且在兩個磁碟上都很好，直到我拉屎了兩個都透過寫入 /dev/md0 進行複製。幸運的是， e2fsck -y /dev/md0 解決了這個問題（在發出大量驚人的輸出之後），沒有明顯的資料遺失。經驗教訓：如果 debugfs icheck 顯示“未找到區塊”，並不一定意味著相應的磁區未被使用。

回到資料偏移量：使用 mdadm 找出偏移量，如下所示：

# mdadm --examine /dev/sdb2
/dev/sdb2:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : ef7934b9:24696df9:b89ff03e:b4e5a05b
           Name : XXXXXXXX
  Creation Time : Sat Sep  1 01:20:22 2012
     Raid Level : raid1
   Raid Devices : 2

 Avail Dev Size : 1953241856 (931.38 GiB 1000.06 GB)
     Array Size : 976620736 (931.38 GiB 1000.06 GB)
  Used Dev Size : 1953241472 (931.38 GiB 1000.06 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
          State : clean
    Device UUID : f3b5d515:446d4225:c2191fa0:9a9847b8

    Update Time : Thu Sep  6 12:11:24 2012
       Checksum : abb47d8b - correct
         Events : 54


    Device Role : Active device 0
    Array State : AA ('A' == active, '.' == missing)

在本例中，資料偏移量為 262144 個磁區，每區 512 位元組。如果您從 /dev/md0 進行 dd 並將其與偏移量為 131072K 的原始分割區中的資料進行比較，您會發現它們相符。因此，就我而言，/dev/sdb2 的邏輯區塊 2（磁區 16--23）甚至不在檔案系統中；它們位於 RAID 超級區塊中，您可以在此處閱讀： https://raid.wiki.kernel.org/index.php/RAID_superblock_formats- 對於版本 1.2，它由 256 位元組 + 陣列中每個裝置 2 位元組組成，全部從 4096 位元組開始，所以在我的例子中，沒有使用壞磁區。 /dev/sdc2（RAID1 陣列的另一半）的相應扇區為零，因此我認為這樣做是安全的：

# dd if=/dev/zero of=/dev/sdb2 bs=4096 count=1 seek=2

有效！

Question 3

如果運行 debian，您很可能在 /etc/cron.d/mdadm 中有一份工作。這將/usr/share/mdadm/checkarray --cron --all --idle --quiet 在每個月的第一個星期日運行。當出現無法修正的硬體錯誤時，手動執行該錯誤以加快重寫速度。

Answer

如果運行 debian，您很可能在 /etc/cron.d/mdadm 中有一份工作。這將/usr/share/mdadm/checkarray --cron --all --idle --quiet 在每個月的第一個星期日運行。當出現無法修正的硬體錯誤時，手動執行該錯誤以加快重寫速度。

Question 4

如果您有 sw-raid1 並且直接將資料寫入其中一個成員，您將立即獲得損壞的 raid。如果 sdaX 或 sdbX 是 mdX 的一部分，請勿將資料寫入其中。如果您寫入 mdX，您會將資料複製到兩個驅動器，如果您從 mdX 讀取，您將從其中一個驅動器讀取資料。

Answer

如果您有 sw-raid1 並且直接將資料寫入其中一個成員，您將立即獲得損壞的 raid。如果 sdaX 或 sdbX 是 mdX 的一部分，請勿將資料寫入其中。如果您寫入 mdX，您會將資料複製到兩個驅動器，如果您從 mdX 讀取，您將從其中一個驅動器讀取資料。

Linux - 使用 GPT 修復 RAID1 陣列上的壞塊

編輯1：

編輯2

編輯3

答案1

適用於系統上所有 RAID 設備的腳本

答案2

答案3

答案4

相關內容