更新

Question

我不知道如何使用您正在嘗試的解決方案強制進行 fsck，但我可以建議一個替代解決方案：

使用tune2fs該值並將其限制為非常低的重新安裝次數和非常低的時間戳

# To see current settings
sudo tune2fs -l /dev/sda4
# To alter it
sudo tune2fs -c 1 -i 1d /dev/sda4

這將強制每 1 次重新安裝或自上次檢查後每 1 天進行一次檢查，無論發生的時間是否早。

檢查智能

正如其他人所說，這只是解決硬體問題的創可貼。有時硬碟壞了，有時是無關的硬體問題（執行記憶體測試），有時只是 SATA 電纜鬆動（從兩端拔下並重新插入，如果不能解決問題，請嘗試另一條電纜）。

請注意最壞的情況，即 PSU 發生故障並損壞硬體的其餘部分（在這種情況下，更換 HDD 只能暫時解決問題，因為隨著時間的推移，新的 HDD 將被 PSU 損壞）。檢查電壓是否在可接受的水平內。

發布智慧的輸出：

sudo smartctl -a /dev/sda

可以幫助診斷可能發生的情況。

更新

我不知道為什麼你也不能透過tune2fs運行fsck。

但我看到了你的聰明。根據它，您的磁碟正在老化，但看起來很健康。

問題可能出在其他地方，例如 SATA 電纜。

如果您無法使 fsck 工作，那麼我所能建議的就是從 liveUsb 啟動並手動執行命令。

更新2

好的，您發布了 dmseg 訊息。我們有來自 SMART 和 OS 的相互矛盾的訊息，所以我會詳細寫一下。

壞塊

SMART 表示您的磁碟機有壞塊。對任何 SSD 來說，這都是正常現象，因為它們會老化，磁碟機會將資料重新分配到備用區塊。一旦耗盡備用驅動器，就需要更換驅動器。

SMART 表示壞塊數量在「正常」範圍內：這裡最重要的屬性是Reallocated_Sector_Ct和Runtime_Bad_Block。

它說它檢測到 311 個壞塊，並將 311 個重新分配到備用區塊中。這很好。如果有 311 個壞區塊，但只有 310 次重新分配，則表示其中一個區塊中的資料遺失。

重要的是“標準化”值（038）。這就是製造商告訴您他們認為正常的情況的方式。

一個值，其中 100 表示完美，0 表示非常糟糕。現在是 38，這意味著「情況越來越糟」；但製造商說只要該值高於 010（閾值）就可以。

這裡我們得到了第一個互相矛盾的訊息：Used_Rsvd_Blk_Cnt_Tot說保護區根本沒有被觸及，儘管有壞塊。它不相加。

但如果韌體儘管報告了該值但沒有追蹤該值，我也不會感到驚訝，因此我們暫時忽略它。

磨損均衡

這是閱讀時最有問題的屬性。Wear_Leveling_Count說它是 001。

這意味著它已經用完了備用塊。但存在韌體錯誤，該屬性會向後報告，值為 1 表示驅動器處於 99% 的運作狀況。

用一個總重量計算器我插入了您寫入的 LBA 數量 + 512 磁區大小，並發現您的磁碟機已寫入 77.43TiB。根據谷歌，你的模型應該有 150TBW 所以它應該仍然可以生存。

恐怕最好的解決方案是啟動 Windows 盒子並運行水晶磁碟資訊它解釋了這些韌體錯誤（使用內部資料庫），並將向您報告非常準確的健康評估。

鑑於你的 smart 說SMART overall-health self-assessment test result: PASSED我傾向於相信它想說的是 99%，而不是 1%。

但如果我錯了，我們可以到此為止，必須更換磁碟。

電纜問題/主機板問題

Linux dmesg 中的錯誤基本上表明它嘗試讀取扇區並獲取了錯誤資料。

核心甚至說它嘗試讀取扇區 235602696 兩次並得到不同的資料：

28 00 0e 0b 03 08 00 002000
28 00 0e 0b 03 08 00 000800.

如果磁碟顯示沒有錯誤，但作業系統顯示有錯誤；然後資料在傳輸過程中被損壞。通常這表示：

SATA 電纜鬆動
SATA 線損壞
電源線插頭鬆動
電源線損壞
主機板總線故障
電源故障
記憶體故障

但這就是我們所擁有的我們的第二個相互矛盾的資訊來源： UDMA_CRC_Error_Count是 0。

這意味著磁碟從未偵測到由電纜損壞/鬆動或主機板匯流排損壞所引起的單一錯誤。

這是非常不可能的。 SMART 表示磁碟狀況良好，從作業系統到達磁碟的命令絕不會因接線不良而損壞；然而作業系統讀取同一扇區兩次並得到不同的位元組。

我能想到的唯一能讓這成為可能的事情是如果你的內存不好。或者是一種極不可能的電纜問題，其中進入磁碟的所有資料都不會損壞，但從磁碟中取出的資料確實會損壞。

行動方針

我的直覺告訴我磁碟壞了。但：

將所有資料備份到另一個磁碟。在 LiveUSB 運行中（以及足夠大的外部 USB 驅動器）：

sudo apt install zstd

# To backup
sudo zstd -16v < /dev/sda > /media/external_disk/backup_file.zst

# To restore (don't do that on step 1, see step 5)
sudo zstdcat -v /media/external_disk/backup_file.zst > /dev/sda

再次備份數據，但這次僅使用常規副本文件（如果磁碟損壞，從簡單備份中恢復比嘗試循環掛載磁碟的壓縮 zstd 映像並從中讀取文件要容易得多）
重新啟動並執行記憶體測試以丟棄 RAM 錯誤
關機，打開機箱，然後重新拔除並插入 SATA 和電源（驅動器）電纜。檢查它們沒有損壞。可能會替換它們。
再次啟動 LiveUSB 磁碟機並執行磁碟安全性擦除。如果您的驅動器出現問題，也許這會將其重置回工作狀態（或者如果磁碟無法挽救，可能會導致它運行最後一個命令）。這應該需要幾分鐘：

sudo blkdiscard -s /dev/sda

如果到目前為止一切順利，請使用sudo zstdcat步驟 1 中的命令還原備份。

如果磁碟仍然有問題且 memtest 成功，那麼我個人會將磁碟判定為壞磁碟。

我們不能忽視 038 的價值意味著Reallocated_Sector_Ct情況正在變得糟糕，儘管製造商表示還沒有「那麼」糟糕。

啊!重要提示：如果在某個時候您將磁碟關閉超過 3 個月；這種情況很有可能發生。儘管人們普遍認為，NAND 單元如果長時間未通電（「太長時間」可能是 7 天到 7 年；但最常見的情況是 3 個月），可能會失去儲存能力。特別是如果他們老了。

如果您遇到這種情況，則只需執行上述步驟：備份資料、安全性清除磁碟、復原備份。

祝你好運。

Answer 1

我不知道如何使用您正在嘗試的解決方案強制進行 fsck，但我可以建議一個替代解決方案：

使用tune2fs該值並將其限制為非常低的重新安裝次數和非常低的時間戳

# To see current settings
sudo tune2fs -l /dev/sda4
# To alter it
sudo tune2fs -c 1 -i 1d /dev/sda4

這將強制每 1 次重新安裝或自上次檢查後每 1 天進行一次檢查，無論發生的時間是否早。

檢查智能

正如其他人所說，這只是解決硬體問題的創可貼。有時硬碟壞了，有時是無關的硬體問題（執行記憶體測試），有時只是 SATA 電纜鬆動（從兩端拔下並重新插入，如果不能解決問題，請嘗試另一條電纜）。

請注意最壞的情況，即 PSU 發生故障並損壞硬體的其餘部分（在這種情況下，更換 HDD 只能暫時解決問題，因為隨著時間的推移，新的 HDD 將被 PSU 損壞）。檢查電壓是否在可接受的水平內。

發布智慧的輸出：

sudo smartctl -a /dev/sda

可以幫助診斷可能發生的情況。

更新

我不知道為什麼你也不能透過tune2fs運行fsck。

但我看到了你的聰明。根據它，您的磁碟正在老化，但看起來很健康。

問題可能出在其他地方，例如 SATA 電纜。

如果您無法使 fsck 工作，那麼我所能建議的就是從 liveUsb 啟動並手動執行命令。

更新2

好的，您發布了 dmseg 訊息。我們有來自 SMART 和 OS 的相互矛盾的訊息，所以我會詳細寫一下。

壞塊

SMART 表示您的磁碟機有壞塊。對任何 SSD 來說，這都是正常現象，因為它們會老化，磁碟機會將資料重新分配到備用區塊。一旦耗盡備用驅動器，就需要更換驅動器。

SMART 表示壞塊數量在「正常」範圍內：這裡最重要的屬性是Reallocated_Sector_Ct和Runtime_Bad_Block。

它說它檢測到 311 個壞塊，並將 311 個重新分配到備用區塊中。這很好。如果有 311 個壞區塊，但只有 310 次重新分配，則表示其中一個區塊中的資料遺失。

重要的是“標準化”值（038）。這就是製造商告訴您他們認為正常的情況的方式。

一個值，其中 100 表示完美，0 表示非常糟糕。現在是 38，這意味著「情況越來越糟」；但製造商說只要該值高於 010（閾值）就可以。

這裡我們得到了第一個互相矛盾的訊息：Used_Rsvd_Blk_Cnt_Tot說保護區根本沒有被觸及，儘管有壞塊。它不相加。

但如果韌體儘管報告了該值但沒有追蹤該值，我也不會感到驚訝，因此我們暫時忽略它。

磨損均衡

這是閱讀時最有問題的屬性。Wear_Leveling_Count說它是 001。

這意味著它已經用完了備用塊。但存在韌體錯誤，該屬性會向後報告，值為 1 表示驅動器處於 99% 的運作狀況。

用一個總重量計算器我插入了您寫入的 LBA 數量 + 512 磁區大小，並發現您的磁碟機已寫入 77.43TiB。根據谷歌，你的模型應該有 150TBW 所以它應該仍然可以生存。

恐怕最好的解決方案是啟動 Windows 盒子並運行水晶磁碟資訊它解釋了這些韌體錯誤（使用內部資料庫），並將向您報告非常準確的健康評估。

鑑於你的 smart 說SMART overall-health self-assessment test result: PASSED我傾向於相信它想說的是 99%，而不是 1%。

但如果我錯了，我們可以到此為止，必須更換磁碟。

電纜問題/主機板問題

Linux dmesg 中的錯誤基本上表明它嘗試讀取扇區並獲取了錯誤資料。

核心甚至說它嘗試讀取扇區 235602696 兩次並得到不同的資料：

28 00 0e 0b 03 08 00 002000
28 00 0e 0b 03 08 00 000800.

如果磁碟顯示沒有錯誤，但作業系統顯示有錯誤；然後資料在傳輸過程中被損壞。通常這表示：

SATA 電纜鬆動
SATA 線損壞
電源線插頭鬆動
電源線損壞
主機板總線故障
電源故障
記憶體故障

但這就是我們所擁有的我們的第二個相互矛盾的資訊來源： UDMA_CRC_Error_Count是 0。

這意味著磁碟從未偵測到由電纜損壞/鬆動或主機板匯流排損壞所引起的單一錯誤。

這是非常不可能的。 SMART 表示磁碟狀況良好，從作業系統到達磁碟的命令絕不會因接線不良而損壞；然而作業系統讀取同一扇區兩次並得到不同的位元組。

我能想到的唯一能讓這成為可能的事情是如果你的內存不好。或者是一種極不可能的電纜問題，其中進入磁碟的所有資料都不會損壞，但從磁碟中取出的資料確實會損壞。

行動方針

我的直覺告訴我磁碟壞了。但：

將所有資料備份到另一個磁碟。在 LiveUSB 運行中（以及足夠大的外部 USB 驅動器）：

sudo apt install zstd

# To backup
sudo zstd -16v < /dev/sda > /media/external_disk/backup_file.zst

# To restore (don't do that on step 1, see step 5)
sudo zstdcat -v /media/external_disk/backup_file.zst > /dev/sda

再次備份數據，但這次僅使用常規副本文件（如果磁碟損壞，從簡單備份中恢復比嘗試循環掛載磁碟的壓縮 zstd 映像並從中讀取文件要容易得多）
重新啟動並執行記憶體測試以丟棄 RAM 錯誤
關機，打開機箱，然後重新拔除並插入 SATA 和電源（驅動器）電纜。檢查它們沒有損壞。可能會替換它們。
再次啟動 LiveUSB 磁碟機並執行磁碟安全性擦除。如果您的驅動器出現問題，也許這會將其重置回工作狀態（或者如果磁碟無法挽救，可能會導致它運行最後一個命令）。這應該需要幾分鐘：

sudo blkdiscard -s /dev/sda

如果到目前為止一切順利，請使用sudo zstdcat步驟 1 中的命令還原備份。

如果磁碟仍然有問題且 memtest 成功，那麼我個人會將磁碟判定為壞磁碟。

我們不能忽視 038 的價值意味著Reallocated_Sector_Ct情況正在變得糟糕，儘管製造商表示還沒有「那麼」糟糕。

啊!重要提示：如果在某個時候您將磁碟關閉超過 3 個月；這種情況很有可能發生。儘管人們普遍認為，NAND 單元如果長時間未通電（「太長時間」可能是 7 天到 7 年；但最常見的情況是 3 個月），可能會失去儲存能力。特別是如果他們老了。

如果您遇到這種情況，則只需執行上述步驟：備份資料、安全性清除磁碟、復原備份。

祝你好運。

更新

答案1

檢查智能

更新

更新2

壞塊

磨損均衡

電纜問題/主機板問題

行動方針

相關內容