![更換您的 SSD](https://rvso.com/image/898942/%E6%9B%B4%E6%8F%9B%E6%82%A8%E7%9A%84%20SSD.png)
我的筆記型電腦SSD自發生以來,錯誤數量激增上次我發帖。
這個驅動器死了嗎?
現在它已經打開了,我正在上面寫下這個 - 我已經備份了所有數據,但我仍然不確定它是否可用?
聯繫製造商並沒有多大幫助:他們要求我安裝 Windows 並從那裡運行磁碟檢查實用程序,或者將其作為外部驅動器連接到 Windows 主機並在那裡進行測試。
我都做了,沒有遇到任何錯誤。
我還使用他們提供的實用程式對其進行了檢查(請參見下面的螢幕截圖)。然後我使用我用clonezilla製作的鏡像返回Ubuntu,我發現SATA PHY錯誤計數接近300個錯誤!
我還檢查了連接器,但由於 SSD 位於筆記型電腦中,我無法(輕鬆)更換電纜。
這些是製造商實用程式產生的測試結果
smartctl
稍後在 Ubuntu 上的輸出:
smartctl 6.5 2016-05-07 r4318 [x86_64-linux-4.14.0-041400-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Device Model: SPCC Solid State Disk
Serial Number: XXXXXXXXXX
Firmware Version: S9FM02.8
User Capacity: 120,034,123,776 bytes [120 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: 2.5 inches
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ACS-3 (minor revision not indicated)
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Sun Feb 18 02:22:56 2018 EET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 30) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 2) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000a 100 100 000 Old_age Always - 0
9 Power_On_Hours 0x0012 100 100 000 Old_age Always - 6352
12 Power_Cycle_Count 0x0012 100 100 000 Old_age Always - 2717
168 Unknown_Attribute 0x0012 100 100 000 Old_age Always - 0
170 Unknown_Attribute 0x0013 100 100 010 Pre-fail Always - 25
173 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 105447539
192 Power-Off_Retract_Count 0x0012 100 100 000 Old_age Always - 77
194 Temperature_Celsius 0x0023 070 070 000 Pre-fail Always - 30
196 Reallocated_Event_Count 0x0000 100 100 000 Old_age Offline - 0
218 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 15431
241 Total_LBAs_Written 0x0012 100 100 000 Old_age Always - 6281157
SMART Error Log Version: 1
ATA Error Count: 298 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 298 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 01 01 00 00 00
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ff d5 01 01 00 00 00 ff 00:11:08.077 [VENDOR SPECIFIC]
ca 00 80 b0 8f 12 e1 00 00:11:08.076 WRITE DMA
ca 00 80 30 8f 12 e1 00 00:11:08.076 WRITE DMA
ca 00 80 b0 8e 12 e1 00 00:11:08.075 WRITE DMA
ca 00 80 30 8e 12 e1 00 00:11:08.074 WRITE DMA
Error 297 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 01 01 00 00 00
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ff d5 01 01 00 00 00 ff 00:11:08.039 [VENDOR SPECIFIC]
ca 00 80 b0 7c 12 e1 00 00:11:08.038 WRITE DMA
ca 00 80 30 7c 12 e1 00 00:11:08.038 WRITE DMA
ca 00 80 b0 7b 12 e1 00 00:11:08.037 WRITE DMA
ca 00 80 30 7b 12 e1 00 00:11:08.037 WRITE DMA
Error 296 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 01 01 00 00 00
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ff d5 01 01 00 00 00 ff 00:11:07.974 [VENDOR SPECIFIC]
ca 00 80 b0 48 12 e1 00 00:11:07.973 WRITE DMA
ca 00 80 30 48 12 e1 00 00:11:07.972 WRITE DMA
ca 00 80 b0 47 12 e1 00 00:11:07.972 WRITE DMA
ca 00 80 30 47 12 e1 00 00:11:07.972 WRITE DMA
Error 295 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 01 01 00 00 00
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ff d5 01 01 00 00 00 ff 00:11:07.927 [VENDOR SPECIFIC]
ca 00 80 b0 2a 12 e1 00 00:11:07.926 WRITE DMA
ca 00 80 30 2a 12 e1 00 00:11:07.925 WRITE DMA
ca 00 80 b0 29 12 e1 00 00:11:07.925 WRITE DMA
ca 00 80 30 29 12 e1 00 00:11:07.924 WRITE DMA
Error 294 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 01 01 00 00 00
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ff d5 01 01 00 00 00 ff 00:11:07.899 [VENDOR SPECIFIC]
ca 00 80 b0 22 12 e1 00 00:11:07.898 WRITE DMA
ca 00 80 30 22 12 e1 00 00:11:07.897 WRITE DMA
ca 00 80 b0 21 12 e1 00 00:11:07.897 WRITE DMA
ca 00 80 30 21 12 e1 00 00:11:07.896 WRITE DMA
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 6288 -
# 2 Conveyance offline Completed without error 00% 6285 -
# 3 Short offline Completed without error 00% 6285 -
# 4 Extended offline Completed without error 00% 6283 -
# 5 Extended offline Completed without error 00% 6283 -
# 6 Short offline Completed without error 00% 6283 -
# 7 Extended offline Completed without error 00% 6262 -
# 8 Conveyance offline Completed without error 00% 6262 -
# 9 Conveyance offline Completed without error 00% 6262 -
#10 Extended offline Completed without error 00% 6262 -
#11 Short offline Completed without error 00% 6262 -
#12 Conveyance offline Completed without error 00% 6211 -
#13 Extended offline Completed without error 00% 6211 -
#14 Short offline Completed without error 00% 6211 -
#15 Short offline Completed without error 00% 6075 -
#16 Conveyance offline Completed without error 00% 5564 -
#17 Extended offline Completed without error 00% 5564 -
#18 Short offline Completed without error 00% 5564 -
#19 Conveyance offline Completed without error 00% 5319 -
#20 Short offline Completed without error 00% 5319 -
#21 Conveyance offline Completed without error 00% 4403 -
SMART Selective self-test log data structure revision number 0
Note: revision number not 1 implies that no selective self-test has ever been run
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
答案1
更換您的 SSD
人們在評論中嘗試了很多東西,但這款SSD似乎有一些問題。
從 SMART 讀數來看,您的驅動器沒有進行太多操作(約 250 天開機,約 6 TB 寫入),並且您說它已經使用了大約 2 年。這應該是在保固範圍之內的!
我的建議是
- 立即備份所有資料(儘管你說你已經涵蓋了)
- 卸下/更換SSD(當然取決於您的預算)
- 將磁碟發送給製造商進行更換
只需發送給他們此處提出 RMA 請求。
答案2
您在 2017 年 5 月 11 日之前的某個時間更新了 SSD 韌體。然而,新版本發佈於2017年9月並且您應該使用 Windows 應用它。
運行fstrim
以丟棄檔案系統中未使用的區塊:
$ sudo fstrim --verbose --all
/mnt/c: 16 EiB (18446744073709551615 bytes) trimmed
/mnt/e: 16 EiB (18446744073709551615 bytes) trimmed
/: 23.4 GiB (25132920832 bytes) trimmed
就我而言,Windows 10 分割區的結果/mnt/c
非常/mnt/e
出色。所以我檢查了文件,數據沒有受到任何損害。
fsck -f
未安裝分割區時,使用 Live-USB 啟動後在 SSD 上執行。另一個選擇是fsck -f
從 grub 運行 -如何在卸載硬碟時使用可啟動 USB 記憶棒對硬碟進行 fsck?。
正如評論中提到的,壞的 SATA 電纜可能會導致錯誤。但作為這個答案指出,連接鬆動也會導致錯誤。若要排除連接不良/鬆動的情況,請從 SSD 上拔下插頭,將壓縮空氣吹過插頭和驅動器上的公插針,然後牢固地重新安裝電纜。
你的時間值多少錢?
最後一個問題是你的時間值多少錢。假設您花了 10 個小時解決這個問題,那麼每小時的費用為 5 美元,因為許多全新的 120GB SATA III SSD 都可以從易趣網
2018 年 2 月 23 日更新
我今晚讀了所有其他答案。一個答案說退貨。但如果你這樣做了並且他們沒有發現任何問題,他們只會將其退回,而你將在 2 週到 2 個月內無法開車。
另一個答案說 smartctl 報告驅動器沒有任何問題。
在這個答案中,我建議運行fsck -f
,您回覆說沒有報告錯誤。
fsck
每次啟動都運行
作為否定答案(返回)和肯定答案(沒有問題)之間的妥協,我傾向於fsck
每次啟動時運行。如果發現錯誤,啟動將暫停,您可以閱讀錯誤訊息。總結一下連結的使用:
sudo tune2fs -c 1 /dev/sdX
注意:替換X
為您的磁碟機盤符,即a
、b
等。。
如果一個月後沒有出現錯誤,請將值從 更改1
為30
我認為對於大多數系統而言典型的值。在典型的 SSD 上fsck
運行速度很快。
清潔並重新安裝 SATA 電纜
其他人提到更換 SATA 電纜,這對筆記型電腦來說是有問題的。作為折衷方案,請考慮拔下驅動器側的所有電纜,在公端和母端使用壓縮空氣,然後將電纜牢固地插回。
答案3
你的驅動沒有任何問題。所有測試均通過。您只是誤解了 SMART 數據。
首先,第一個螢幕截圖包含原始數據,您無法對此得出任何結論。我不知道它的創造者認為數據對任何人有什麼用處,但它實際上沒有任何意義。除非可以透過在視窗中向右捲動或其他方式到達有意義的列。
讓我解釋一下 SMART 報告(您發布的後一個報告)中的各列。
- 屬性名稱:指標名稱
- Value:當前值,越高越好。數值通常在 100 範圍內,其中 100 = 最佳,但可以使用任何等級,只要越高越好。即使該指標類似於“錯誤率”,它也是標準化的,因此較高的值意味著較低的錯誤率。
- 最差:最差的觀察值,越高越好。
- Thresh:如果值低於此值,則為失敗條件。等於或高於=通過。
- 類型:失敗條件對該指標意味著什麼。
- Old_age:此指標表示驅動器的壽命/使用情況,而不是特定問題。
- 預故障:此指標顯示驅動器有潛在問題,會增加驅動器故障的可能性。
- When_failed:當進入故障模式時(如果有的話)
- Raw_value:貢獻該值的驅動器的內部測量值 - 這對於最終用戶來說沒有用,較低或較高的值不一定表示更好或更差。
針對報告中的一些特定領域:
SMART整體健康自我評估測試結果:通過
這反映了一切都過去了。所測量的指標都沒有進入失敗狀態。
“錯誤”日誌對於驅動器來說是相對典型的。這些並不一定表示不可恢復的錯誤,甚至驅動器本身有問題;他們的報告含糊不清,因此除了控制器的 DMA 傳輸期間外,您無法判斷實際發生了什麼,但如果有什麼重要的事情,它將反映在整體運行狀況報告中。特別是,這些可能是相當無辜的事情,例如在控制器端取消的寫入,或者作業系統在加載期間請求驅動器不支援的某些功能,這在探測設備功能時可能是完全正常的。
最後,關於 CRC 錯誤或錯誤率的說明:所有磁碟機都有錯誤率。驅動器以如此高的密度存儲數據,透過使用糾錯碼,預計會出現一定數量的位元錯誤,並針對該錯誤進行了設計。糾錯碼確保每個位元區塊可能發生一定數量的位元錯誤,並且被 100% 修正。驅動器總是不斷地應用糾錯碼,而糾錯碼的設計使得發生錯誤的機會無法恢復的在運作良好的驅動器中,隨機發生的錯誤非常低(例如,比中獎的可能性要低得多)。如果您在任何統計數據中看到錯誤率,並且認為這沒什麼大不了的,那是因為事實並非如此,它只是被糾正了錯誤。
答案4
因為只有 WRITE DMA 錯誤和短的和長時間測試沒有顯示任何錯誤。
由於 DMA 與直接記憶體存取有關,請嘗試找出 BIOS 是否有單獨的硬體診斷測試,並嘗試與記憶體相關的測試。
如果沒有可用的 BIOS 嵌入式測試,請查看製造商支援網站是否有可用的離線硬體診斷(例如:可燒錄到 CD 或 USB 記憶棒上的可啟動 ISO 檔案)
(順便一提:ubuntu CD 也有記憶體診斷功能)
因為DMA寫入是IO,所以我會嘗試更換SATA電纜,看看之後是否沒有添加新的錯誤號碼(最後一個是298,但現在可以添加更多)