Замените SSD-накопитель

Замените SSD-накопитель

SSD-накопитель моего ноутбукакапризничает, и количество ошибок резко возросло с тех пор, какпоследний раз, когда я публиковал.

Этот диск мертв/умирает?
Он сейчас включен, и я пишу это на нем - у меня есть резервная копия всех моих данных и все такое, но я все еще не уверен, можно ли его использовать или нет?

Обращение к производителю не помогло: они попросили меня установить Windows и запустить утилиту проверки диска оттуда или подключить его как внешний диск к хосту Windows и протестировать его там.
Я сделал и то, и другое, и никаких ошибок не возникло.

Я также проверил его с помощью утилиты, которую они предоставляют (см. скриншот ниже). Затем я использовал образ, созданный с помощью clonezilla, чтобы вернуться в Ubuntu, и обнаружил, что количество ошибок SATA PHY приближается к 300 ошибкам!

Я также проверил разъемы, но поскольку SSD находится в ноутбуке, я не могу заменить кабель (что было бы легко).

Это результаты испытаний, полученные производителем.

Результаты теста

И smartctlвывод на Ubuntu, позже:

smartctl 6.5 2016-05-07 r4318 [x86_64-linux-4.14.0-041400-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     SPCC Solid State Disk
Serial Number:    XXXXXXXXXX
Firmware Version: S9FM02.8
User Capacity:    120,034,123,776 bytes [120 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-3 (minor revision not indicated)
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sun Feb 18 02:22:56 2018 EET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:        (   30) seconds.
Offline data collection
capabilities:            (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   1) minutes.
Extended self-test routine
recommended polling time:    (   2) minutes.
Conveyance self-test routine
recommended polling time:    (   2) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000a   100   100   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       6352
 12 Power_Cycle_Count       0x0012   100   100   000    Old_age   Always       -       2717
168 Unknown_Attribute       0x0012   100   100   000    Old_age   Always       -       0
170 Unknown_Attribute       0x0013   100   100   010    Pre-fail  Always       -       25
173 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       105447539
192 Power-Off_Retract_Count 0x0012   100   100   000    Old_age   Always       -       77
194 Temperature_Celsius     0x0023   070   070   000    Pre-fail  Always       -       30
196 Reallocated_Event_Count 0x0000   100   100   000    Old_age   Offline      -       0
218 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       15431
241 Total_LBAs_Written      0x0012   100   100   000    Old_age   Always       -       6281157

SMART Error Log Version: 1
ATA Error Count: 298 (device log contains only the most recent five errors)
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 298 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:08.077  [VENDOR SPECIFIC]
  ca 00 80 b0 8f 12 e1 00      00:11:08.076  WRITE DMA
  ca 00 80 30 8f 12 e1 00      00:11:08.076  WRITE DMA
  ca 00 80 b0 8e 12 e1 00      00:11:08.075  WRITE DMA
  ca 00 80 30 8e 12 e1 00      00:11:08.074  WRITE DMA

Error 297 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:08.039  [VENDOR SPECIFIC]
  ca 00 80 b0 7c 12 e1 00      00:11:08.038  WRITE DMA
  ca 00 80 30 7c 12 e1 00      00:11:08.038  WRITE DMA
  ca 00 80 b0 7b 12 e1 00      00:11:08.037  WRITE DMA
  ca 00 80 30 7b 12 e1 00      00:11:08.037  WRITE DMA

Error 296 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:07.974  [VENDOR SPECIFIC]
  ca 00 80 b0 48 12 e1 00      00:11:07.973  WRITE DMA
  ca 00 80 30 48 12 e1 00      00:11:07.972  WRITE DMA
  ca 00 80 b0 47 12 e1 00      00:11:07.972  WRITE DMA
  ca 00 80 30 47 12 e1 00      00:11:07.972  WRITE DMA

Error 295 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:07.927  [VENDOR SPECIFIC]
  ca 00 80 b0 2a 12 e1 00      00:11:07.926  WRITE DMA
  ca 00 80 30 2a 12 e1 00      00:11:07.925  WRITE DMA
  ca 00 80 b0 29 12 e1 00      00:11:07.925  WRITE DMA
  ca 00 80 30 29 12 e1 00      00:11:07.924  WRITE DMA

Error 294 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:07.899  [VENDOR SPECIFIC]
  ca 00 80 b0 22 12 e1 00      00:11:07.898  WRITE DMA
  ca 00 80 30 22 12 e1 00      00:11:07.897  WRITE DMA
  ca 00 80 b0 21 12 e1 00      00:11:07.897  WRITE DMA
  ca 00 80 30 21 12 e1 00      00:11:07.896  WRITE DMA

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%      6288         -
# 2  Conveyance offline  Completed without error       00%      6285         -
# 3  Short offline       Completed without error       00%      6285         -
# 4  Extended offline    Completed without error       00%      6283         -
# 5  Extended offline    Completed without error       00%      6283         -
# 6  Short offline       Completed without error       00%      6283         -
# 7  Extended offline    Completed without error       00%      6262         -
# 8  Conveyance offline  Completed without error       00%      6262         -
# 9  Conveyance offline  Completed without error       00%      6262         -
#10  Extended offline    Completed without error       00%      6262         -
#11  Short offline       Completed without error       00%      6262         -
#12  Conveyance offline  Completed without error       00%      6211         -
#13  Extended offline    Completed without error       00%      6211         -
#14  Short offline       Completed without error       00%      6211         -
#15  Short offline       Completed without error       00%      6075         -
#16  Conveyance offline  Completed without error       00%      5564         -
#17  Extended offline    Completed without error       00%      5564         -
#18  Short offline       Completed without error       00%      5564         -
#19  Conveyance offline  Completed without error       00%      5319         -
#20  Short offline       Completed without error       00%      5319         -
#21  Conveyance offline  Completed without error       00%      4403         -

SMART Selective self-test log data structure revision number 0
Note: revision number not 1 implies that no selective self-test has ever been run
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

решение1

Замените SSD-накопитель

Люди в комментариях перепробовали много вариантов, но, похоже, у этого SSD есть некоторые проблемы.

Судя по показаниям SMART, ваш диск не подвергался большой нагрузке (~250 включений в день, ~6 ТБ записано), и вы говорите, что ему около 2 лет. Это должно быть в пределах гарантии!

Мой совет

  • немедленно сделайте резервную копию всех ваших данных (хотя вы говорите, что уже сделали это)
  • извлеките/замените SSD (в зависимости от вашего бюджета, конечно)
  • отправьте диск производителю для замены

Твой "Тонкий S70"диск должен быть защищен 5-летней гарантиейСила кремния гарантия

Просто отправьте ихзапрос RMA здесь.

решение2

Некоторое время до 11 мая 2017 года вы обновили прошивку SSD. Однако новая версия была выпущена вСентябрь 2017 г.и применять его следует с помощью Windows.


Запустите fstrimдля удаления неиспользуемых блоков в файловой системе:

$ sudo fstrim --verbose --all
/mnt/c: 16 EiB (18446744073709551615 bytes) trimmed
/mnt/e: 16 EiB (18446744073709551615 bytes) trimmed
/: 23.4 GiB (25132920832 bytes) trimmed

В моем случае результаты для разделов Windows 10 /mnt/cбыли /mnt/eпросто неземными. Поэтому я проверил файлы, и никакого вреда данным не было нанесено.


Запустите fsck -fна вашем SSD после загрузки с Live-USB, когда раздел не смонтирован. Другой вариант — запуск fsck -fиз grub -Как выполнить fsck жесткого диска, когда он размонтирован, используя загрузочную USB-флешку?.


Как упоминалось в комментариях, плохой кабель SATA может вызывать ошибки. Но какэтот ответуказывает, что неплотное соединение также может вызывать ошибки. Чтобы исключить неплотное/неплотное соединение, снимите штекеры с вашего SSD, продуйте их и штыревые контакты на диске сжатым воздухом и надежно переустановите кабели.


Сколько стоит ваше время?

Последний вопрос: сколько стоит ваше время? Если вы потратите 10 часов на эту проблему, то это будет стоить вам 5 долларов в час, поскольку многие новые 120-гигабайтные SATA III SSD можно купить наebay.com


Обновление от 23 февр. 2018 г.

Я прочитал все остальные ответы сегодня вечером. В одном ответе говорится, что нужно вернуть его. Но если вы это сделаете и они не найдут ничего плохого, они просто отправят его обратно, и вы останетесь без привода на срок от 2 недель до 2 месяцев.

В другом ответе говорится, что smartctl сообщает, что с диском все в порядке.

В этом ответе я предложил выполнить запуск fsck -f, и вы ответили, что никаких ошибок не было.

Запускать fsckкаждую загрузку

В качестве компромисса между отрицательным ответом (вернуть) и положительным ответом (ничего не случилось) я бы склонился к следующему:запускать fsckпри каждой загрузке. Если обнаружена ошибка, загрузка приостанавливается, и вы можете прочитать сообщение об ошибке. Для краткости ссылки используйте:

sudo tune2fs -c 1 /dev/sdX

Примечание: замените Xна букву вашего диска, например a, b, и т. д..

Если после месяца без ошибок, измените значение с 1на 30которое типично для большинства систем, я полагаю. На типичном SSD fsckбудет работать быстро.

Очистите и переустановите кабели SATA.

Другие упоминали замену кабеля SATA, что проблематично для ноутбука. В качестве компромисса рассмотрите возможность отключения всех кабелей со стороны привода, использования сжатого воздуха на концах «папа» и «мама», а затем надежного подключения кабелей обратно.

решение3

С вашим приводом все в порядке. Все тесты пройдены. Вы просто неправильно интерпретируете данные SMART.

Во-первых, первый скриншот содержит сырые данные, и вы не можете сделать никаких выводов о них. Я понятия не имею, какую пользу, по мнению его создателя, эти данные могут принести кому-либо, но на самом деле они ничего не значат. Если только значимые столбцы не могут быть достигнуты путем прокрутки прямо в окне или что-то в этом роде.

Позвольте мне пояснить столбцы в отчете SMART (последний отчет, который вы опубликовали).

  • Имя атрибута: имя метрики
  • Значение: текущее значение, чем выше, тем лучше. Значения часто находятся в диапазоне от 100, где 100 = лучшее, но можно использовать любую шкалу, если чем выше, тем лучше. Даже если метрика — это что-то вроде «частоты ошибок», она нормализована, поэтому чем выше значение, тем ниже частота ошибок.
  • Хуже: наихудшее наблюдаемое значение, чем выше, тем лучше.
  • Thresh: если значение падает ниже этого значения, это условие провала. При значении или выше = пройдено.
  • Тип: что будет означать условие отказа для этой метрики.
    • Old_age: этот показатель указывает на возраст/использование накопителя, а не на конкретную проблему.
    • Предотвращение отказа: этот показатель указывает на потенциальную проблему с диском, увеличивая вероятность выхода его из строя.
  • When_failed: Когда это вошло в режим отказа, если когда-либо
  • Raw_value: внутреннее измерение привода, которое повлияло на значение — это бесполезно для конечного пользователя, а более низкие или более высокие значения не обязательно указывают на лучшее или худшее.

Рассмотрим некоторые конкретные разделы отчета:

Результат теста самооценки общего состояния здоровья SMART: ПРОЙДЕНО

Это отражает все пройденное. Ни одна из измеренных метрик никогда не входила в состояние отказа.

Журнал «ошибок» относительно типичен для накопителя. Они не обязательно указывают на неустранимые ошибки или даже проблемы с самим накопителем; их отчеты расплывчаты, поэтому вы не можете сказать, что на самом деле произошло, за исключением того, что это было во время передачи DMA на контроллере, но если что-то было важным, это было бы отражено в общем отчете о работоспособности. В частности, это может быть что-то довольно невинное, например, записи, которые были отменены на стороне контроллера, или ОС, запрашивающая какую-то функцию во время загрузки, которую накопитель не поддерживает, что может быть совершенно нормальным при проверке возможностей устройства.

Наконец, примечание об ошибках CRC или коэффициентах ошибок: все диски имеют коэффициент ошибок. Диски хранят данные с такой высокой плотностью, что определенное количество битовых ошибок ожидается и рассчитано на это, используя код исправления ошибок. Код исправления ошибок гарантирует, что определенное количество битовых ошибок на порцию битов может произойти и будет исправлено на 100%. Диск постоянно применяет код исправления ошибок все время, и код исправления ошибок разработан таким образом, что вероятностьне поддающийся восстановлениюСлучайное возникновение ошибок очень маловероятно (то есть, значительно менее вероятно, чем выигрыш в лотерею) в хорошо функционирующем приводе. Если вы видите частоту ошибок в любой статистике и считаете ее незначительной, то это потому, что она таковой не является, это просто исправленные ошибки.

решение4

Так как у вас есть только ошибки WRITE DMAикороткийиДлительные тесты не выявили ошибок.

А поскольку DMA подразумевает прямой доступ к памяти, попробуйте выяснить, есть ли в BIOS отдельный тест аппаратной диагностики, и попробуйте выполнить тесты, связанные с памятью.

Если встроенный тест BIOS недоступен, проверьте на сайте поддержки производителя, доступна ли автономная диагностика оборудования (например, загрузочный ISO-файл для записи на CD или USB-накопитель).

(Кстати: на компакт-диске Ubuntu также есть диагностика памяти)

Поскольку запись DMA — это ввод-вывод, я бы попробовал заменить кабель SATA и посмотреть, не добавятся ли после этого новые номера ошибок (последняя здесь 298, но к настоящему времени могут быть добавлены и другие).

Связанный контент