去年,我購買了一個新的外部 HDD(驅動器 1),但在不到 2 個月的時間內毫無預警地出現故障。我把它更換為另一個不同但也是新的外部驅動器(驅動器 2),現在四個月後它也開始出現故障。我有一個輔助外部驅動器(驅動器 3),這個已經有好幾年了,一直運作良好......直到現在。它剛開始彈出分頁操作錯誤。
我根本不插拔這些驅動器,也很少移動它們,如果每月一次就太多了。當它們旋轉時,切勿觸摸它們。他們靜靜地躺在角落。
所有三個驅動器都透過 USB 連接到同一主機板。我不超頻任何東西,電腦連接到帶有保險絲的基本電源板,保險絲插入牆壁插座。我還有兩個 SSD 以舊方式插入主機板,SATA+PSU 供電。這些看起來還可以。
今年年初,我所在的地區出現了電力問題,但問題已經解決,第一個驅動器在此之前就死掉了。 PSU 也很舊,是 Corsair CX430。我沒有遇到任何其他經典的 PSU 故障跡象,只有 HDD 快要死了。
我一直在閱讀有關可疑驅動器故障的文章,大多數人都指出有故障的 PSU,但它總是與內部硬碟有關,而不是便攜式硬碟。如果是 PSU,我是否還會看到其他問題?
也許我只是運氣不好,連續兩次壞驅動器,第三次驅動器的壽命即將結束,但如果不是運氣不好,我需要弄清楚發生了什麼,因為它讓工作成為一場噩夢。我需要一個好的行動計劃來診斷問題,但我有點迷失了。我不知道我可以在 PSU 上執行哪些測試來排除這種情況,也不知道我可以在主機板上執行哪些測試,如果它能確實殺死了外部驅動器。
編輯以添加額外信息
我將把這些驅動器標識為驅動器 1:新的、第一個故障的、不再屬於我的;驅動器2:新的,失敗的;驅動器 3:舊的,可能故障。
所有驅動器都連接到或曾經連接到我的主機板中的 USB 3.0 連接埠。驅動器 1 和 2 連接到同一端口,但出現問題後我嘗試了所有其他端口。還沒有仔細研究端口。驅動器 3 連接到不同的集線器或主機板連接埠叢集。它們相距很遠,我無知的猜測是這些是不同的電路:
我已將週邊設備插入剩餘的 USB 中。沒有發現任何異常。
CrystalDisk 讀數與 SMART 資料如下。它們都是內部尺寸為 2.5 英寸的消費級便攜式 HDD。
驅動器 2(新的外部硬碟,目前發生故障)
Chkdsk /r
未檢測到壞塊。它可以被讀取和寫入,如果不予處理,在事件檢視器中不會顯示任何錯誤,但在正常使用過程中,寫入較大的 100MB+ 檔案時,它將開始導致這些事件警告:
ID 51, warning
:“在分頁操作期間在設備(磁碟)上檢測到錯誤。” (在第一次寫入失敗之前,這肯定表明它即將再次寫入失敗)ID 153, warning
:「邏輯塊位址0x------的IO操作被重試」(第一次失敗後開始,邏輯塊發生變化,有時是0x0)
此時如果你堅持寫的話,他們會接著寫:
ID 140, warning
:「系統無法將資料刷新到交易日誌。(...)失敗狀態:{磁碟機未就緒}」(第一次失敗時)ID 154, error
:“邏輯區塊位址0x處的IO操作由於硬體錯誤而失敗”ID 137, error
:“卷 D: 上的預設事務資源管理器遇到不可重試的錯誤,無法啟動。資料包含錯誤代碼。”ID 140, warning
:“系統無法將資料刷新到交易日誌。(...)失敗狀態:由於致命的設備硬體錯誤,請求失敗。”
前兩個警告在使用過程中並不明顯,但一旦發生錯誤,它就會凍結在作業系統中,直到我再次拔下並重新插入它。最可惡的跡像是當它無法寫入時,它會點擊。雖然不是不停地點擊,但一次點擊就太多了,對吧?
驅動器 3(舊的外部驅動器,目前出現卡頓)
必須運行chkdsk
兩次,第一次嘗試掃描就卡住了。也報告 0 個壞扇區。
它還會提示無聲警告。運作過程中兩者都不明顯,沒有出現卡頓現象:
ID 153, warning
:「The IO operation at Logical Block Address 0x------ was retried」(已經持續了一段時間,邏輯塊發生變化,有時是0x0)ID 51, warning
:“在分頁操作期間在設備(磁碟)上檢測到錯誤。” (昨天開始,也預測即將失敗)
從昨天開始,它會隨機導致向其寫入大檔案(1GB+)的軟體停止並顯示錯誤。此時它將斷開連接並自行重新連接,之後即可存取。事件檢視器在這些時刻顯示以下錯誤:
ID 50, warning
:「{延遲寫入失敗} } Windows 無法保存文件 D:(something) 的所有資料」(更改,有時只是卷根)ID 140, warning
:“故障狀態:指定了不存在的設備。(...)故障狀態:指定了不存在的設備”
我還沒聽到它發出咔嗒聲。
驅動器 1(第一個故障的新外部驅動器,不再屬於我)
它還顯示分頁錯誤 (51),這些錯誤在幾天內未被注意到,隨後在磁碟機無法寫入時出現以下錯誤:
ID 7, warning
:“設備(磁碟)有壞塊。”ID 154, error
:“邏輯區塊位址0x處的IO操作由於硬體錯誤而失敗”
它是突然的、致命的、凍結的,此後就再也無法接近了。我嘗試至少恢復一些文件,但它甚至不會出現在 DISKPART 或 linux 中。它也呈現了該事件之後持續不斷的死亡咔噠聲。
編輯2:它只發生在較高的主機板溫度下
我透過在各種條件下(從相同的 PC 和作業系統到不同的 PC 和作業系統)在磁碟之間傳輸 5GB 檔案來完成建議的測試。當我不僅在不同條件下而且在原始 PC 上都無法重現問題時和作業系統,我意識到在磁碟開始工作的日子裡以及當我運行測試時,一個因素發生了變化:天氣。
當天氣從熱浪轉變為異常溫和的天氣時,溫度下降了 10 攝氏度以上。今天天氣暖和一些,我可以在同一台 PC 和作業系統上可靠地重現問題。我還得到了一位不穩定的粉絲的幫助(詳情請見最後)。
當磁碟 2 由於硬體故障而顯示常見的 I/O 錯誤並凍結時,溫度會上升三:
包含作業系統的 M.2 SSD 溫度達到 79°C。它位於電路板的下側,PCH 的正下方。
PCH 報告溫度為 59°C+。
“溫度 5”感測器報告溫度為 69°C+。我猜這就是 VRM,沒有其他神秘感測器會這麼熱。
降低 SSD 溫度並不能阻止錯誤,但降低 PCH/temp 5 溫度卻可以。在這些值下,磁碟 2 會恢復正常運作:
我知道 CPU 和 GPU 都不是特別熱,但我沒有關注主機板,當然也沒有關注 SSD 溫度。根據我讀過的內容,這些主機板溫度讀數並沒有那麼熱,但由於風扇的存在,這些讀數比我係統中通常的溫度更高(~50/60°C)。
我正在努力找出確切的溫度截止值,到目前為止,磁碟停止回應的最低溫度是 59°C PCH 和 56°C temp 5。 PCH 也管理 USB 資料和電源,不是嗎?
風扇問題
我的機殼是一個小部件,正面有 120mm 風扇。我用水冷散熱器/風扇替換了原廠的散熱器,兼作電腦的排氣裝置。它插在 CPU_FAN 上並很好地履行其雙重職責。它和這個版本中的其他所有東西一樣古老,我將庫存曲線調整為稍微更激進的曲線。
在運行測試時,我意識到風扇出了問題:它在不應該的情況下卡在了最低速度。它忽略了 Windows mobo 實用程式設定的曲線,並嘗試使其以固定的 100% 旋轉,使其隨機以 100% 旋轉幾秒鐘,而沒有按預期維持旋轉速度。不過,它確實尊重 UEFI 設置,並在我通過 UEFI 更改設置後再次開始響應該實用程式。
奇怪,但我不認為這是問題的根本原因,它只是讓溫度上升得更快更高而加劇了問題。我擔心這樣的溫度從長遠來看會降低某些組件的性能,因為事後看來,我的電腦自年初以來一直太安靜,到目前為止我們已經經歷了四到五次熱浪。