Diagnose der Zuverlässigkeit eines Laufwerks anhand von SMART-Attributen

Diagnose der Zuverlässigkeit eines Laufwerks anhand von SMART-Attributen

Ich versuche herauszufinden, ob meine Festplatte den Geist aufgibt. Ich habe die Smart-Werte untersucht und es sieht so aus, als ob es so wäre, aber sie liest und schreibt Daten immer noch einwandfrei und es treten keine neuen Fehler auf.

Früher war dort ein Wert von 8 vorhanden 197 Current_Pending_Sector, aber nach dem Nullsetzen des Laufwerks wurde der Wert auf 0 zurückgesetzt und beträgt nun 196 Reallocated_Event_Count0.

Bedeutet dies, dass kein Problem mit dem Laufwerk selbst vorliegt und es sich um ein vorübergehendes Systemproblem handelte?

Ebenfalls von Belang ist, 188 Command_Timeoutdass der Wert 1 ist. Dieser wird wie folgt definiert:

Die Anzahl der abgebrochenen Vorgänge aufgrund eines HDD-Timeouts. Normalerweise sollte dieser Attributwert gleich Null sein. Wenn der Wert deutlich über Null liegt, gibt es höchstwahrscheinlich schwerwiegende Probleme mit der Stromversorgung oder einem oxidierten Datenkabel.

Ich habe an einigen einfachen Programmieraufgaben gearbeitet und musste meinen Computer etwa 50 Mal zwangsweise herunterfahren.

Ich gehe davon aus, dass der 191 G-Sense_Error_RateWert 438 in Ordnung ist. Ich denke, das kommt davon, dass ich den Laptop bewege, während die Festplatte eingeschaltet ist.

Was wirklich lustig ist, ist, dass meine Windows-Partition nicht mehr bootete und nicht auf einem anderen Windows- oder Linux-Rechner gemountet werden konnte, aber auf OSX funktionierte sie problemlos, sodass ich meine Dateien wiederherstellen konnte. Ich habe sie neu installiert und seitdem Daten darauf kopiert, und sie scheint perfekt zu funktionieren. OSX ist auf einem anderen Laufwerk.

H2O:~ jeremiah$ smartctl -a /dev/disk1
smartctl 6.3 2014-07-26 r3976 [x86_64-apple-darwin14.1.0] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     HGST HTS541075A9E680
Serial Number:    JD13021X0A00GK
LU WWN Device Id: 5 000cca 764c48bc4
Firmware Version: JA2OA590
User Capacity:    750,156,374,016 bytes [750 GB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Form Factor:      2.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-2, ATA8-ACS T13/1699-D revision 6
SATA Version is:  SATA 3.0, 3.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Wed Mar 11 21:59:30 2015 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:        (   45) seconds.
Offline data collection
capabilities:            (0x51) SMART execute Offline immediate.
                    No Auto Offline data collection support.
                    Suspend Offline collection upon new
                    command.
                    No Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   2) minutes.
Extended self-test routine
recommended polling time:    ( 164) minutes.
SCT capabilities:          (0x003d) SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   086   062    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0025   100   100   040    Pre-fail  Offline      -       0
  3 Spin_Up_Time            0x0023   169   100   033    Pre-fail  Always       -       1
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       981
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002f   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   040    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   095   095   000    Old_age   Always       -       2586
 10 Spin_Retry_Count        0x0033   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       851
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   097    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   001   000    Old_age   Always       -       144929376764360
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       1
190 Airflow_Temperature_Cel 0x0022   069   050   045    Old_age   Always       -       31 (Min/Max 24/31)
191 G-Sense_Error_Rate      0x0032   099   099   000    Old_age   Always       -       438
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       2031647
193 Load_Cycle_Count        0x0032   089   089   000    Old_age   Always       -       115337
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0036   100   100   000    Old_age   Always       -       0
223 Load_Retry_Count        0x002a   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 456 (device log contains only the most recent five errors)
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 456 occurred at disk power-on lifetime: 2549 hours (106 days + 5 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 08 38 8d 62 00  Error: UNC 8 sectors at LBA = 0x00628d38 = 6458680

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 08 38 8d 62 40 00      00:00:34.282  READ DMA EXT
  25 00 08 38 8d 62 40 00      00:00:30.471  READ DMA EXT
  25 00 08 38 8d 62 40 00      00:00:26.660  READ DMA EXT
  25 00 08 38 8d 62 40 00      00:00:22.849  READ DMA EXT
  2f 00 01 10 00 00 00 00      00:00:22.849  READ LOG EXT

Error 455 occurred at disk power-on lifetime: 2549 hours (106 days + 5 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 08 38 8d 62 00  Error: UNC 8 sectors at LBA = 0x00628d38 = 6458680

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 08 38 8d 62 40 00      00:00:30.471  READ DMA EXT
  25 00 08 38 8d 62 40 00      00:00:26.660  READ DMA EXT
  25 00 08 38 8d 62 40 00      00:00:22.849  READ DMA EXT
  2f 00 01 10 00 00 00 00      00:00:22.849  READ LOG EXT
  60 08 a8 38 8d 62 40 00      00:00:19.060  READ FPDMA QUEUED

Error 454 occurred at disk power-on lifetime: 2549 hours (106 days + 5 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 08 38 8d 62 00  Error: UNC 8 sectors at LBA = 0x00628d38 = 6458680

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 08 38 8d 62 40 00      00:00:26.660  READ DMA EXT
  25 00 08 38 8d 62 40 00      00:00:22.849  READ DMA EXT
  2f 00 01 10 00 00 00 00      00:00:22.849  READ LOG EXT
  60 08 a8 38 8d 62 40 00      00:00:19.060  READ FPDMA QUEUED
  60 08 a0 30 8d 62 40 00      00:00:19.059  READ FPDMA QUEUED

Error 453 occurred at disk power-on lifetime: 2549 hours (106 days + 5 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 08 38 8d 62 00  Error: UNC 8 sectors at LBA = 0x00628d38 = 6458680

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 08 38 8d 62 40 00      00:00:22.849  READ DMA EXT
  2f 00 01 10 00 00 00 00      00:00:22.849  READ LOG EXT
  60 08 a8 38 8d 62 40 00      00:00:19.060  READ FPDMA QUEUED
  60 08 a0 30 8d 62 40 00      00:00:19.059  READ FPDMA QUEUED
  60 08 98 28 8d 62 40 00      00:00:19.059  READ FPDMA QUEUED

Error 452 occurred at disk power-on lifetime: 2548 hours (106 days + 4 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 41 08 38 8d 62 00  Error: UNC at LBA = 0x00628d38 = 6458680

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 08 a8 38 8d 62 40 00      00:00:19.060  READ FPDMA QUEUED
  60 08 a0 30 8d 62 40 00      00:00:19.059  READ FPDMA QUEUED
  60 08 98 28 8d 62 40 00      00:00:19.059  READ FPDMA QUEUED
  60 08 90 20 8d 62 40 00      00:00:19.059  READ FPDMA QUEUED
  60 08 88 18 8d 62 40 00      00:00:19.059  READ FPDMA QUEUED

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Antwort1

Früher gab es einen 197 Current_Pending_Sector-Wert von 8, aber nach dem Nullsetzen des Laufwerks wurde der Wert auf 0 zurückgesetzt und der 196 Reallocated_Event_Count ist 0.

Dies bedeutet, dass das Laufwerk zu einem bestimmten Zeitpunkt Probleme beim Lesen einiger Sektoren hatte, seit Sie das Laufwerk jedoch auf Null gesetzt haben, traten damit keine Probleme mehr auf. Als Sie das gesamte Laufwerk mit neuen Daten überschrieben, wechselten die Sektoren von der ausstehenden Neuzuweisung zum Normalzustand, und vermutlich war das Laufwerk mit dem Schreiben zufrieden, da die Sektoren zu diesem Zeitpunkt nicht neu zugewiesen wurden. Sie sollten zur Überprüfung einen langen SMART-Selbsttest durchführen (der normalerweise einen Oberflächenscan umfasst), aber es kann durchaus ein Fehler gewesen sein, der möglicherweise damit zusammenhängt, dass der Computer bewegt wurde, während das Laufwerk in Betrieb war.

Ebenfalls von Belang ist 188 Command_Timeout mit einem Wert von 1, der wie folgt definiert ist:

Kein Grund zur Sorge. Das Laufwerk meldet eine Betriebszeit von fast 2600 Stunden und hat in diesem Zeitraum ein einziges Befehlstimeout erlebt. Befehlstimeouts werden von Betriebssystemen behandelt, indem der fehlgeschlagene Befehl wiederholt wird oder der E/A-Vorgang fehlschlägt. Wenn dies also ein dauerhaftes Problem wäre, würden Sie davon erfahren. Könnte mit den 8 ausstehenden Sektoren zusammenhängen oder nicht.

Wenn dieser Wert merklich ansteigt, würde ich mir Sorgen machen, aber eine einstellige Zahl von Timeouts ohne andere Anzeichen von Problemen beim Systembetrieb würde mich nicht beunruhigen.

Ich habe an einigen einfachen Programmieraufgaben gearbeitet und musste meinen Computer etwa 50 Mal zwangsweise herunterfahren.

Dies sollte keine besorgniserregenden Auswirkungen auf das physische Laufwerk haben, könnte jedoch die logische Datenkonsistenz beeinträchtigen (Beschädigung des Dateisystems usw.).

Auch vonSägespäne's Kommentar:

Sie sollten die kurzen und erweiterten Selbsttests ausführen. Die große Anzahl von ID#187 Reported_Uncorrect-Fehlern weist auf ein Problem hin. Es scheint, als ob es vor etwa 40 POHours eine Reihe nicht korrigierbarer Lesefehler gegeben hat.

Das ist ein gutes Argument, aberwir kennen die Kodierung des Rohwertes nicht.Was wir sagen können, ist, dass der „Wert“ derzeit normalisiert 100 beträgt, mit einem Worst-Survey-Wert von 1 und einem Schwellenwert (für die Meldung, dass das Laufwerk ausgefallen ist oder ein Ausfall unmittelbar bevorsteht) von 0. Das heißt,gegenwärtigDas Laufwerk hält diesen Wert nicht für besorgniserregend. Und 1,45e14 Lesefehler klingen fast unmöglich hoch; nach eigenen Angaben hat das Laufwerk etwa (750 GB bei 4 KiB/Sektor) 183.000 Sektoren. Um die Anzahl der als Rohwert gemeldeten Lesefehler zu erhalten, müsste jeder einzelne Sektor in den gemeldeten 2.586 Betriebsstunden 791.000 Mal ausgefallen sein oder ein vollständiger Lesefehler desgesamtealle 11 Sekunden auftauchen. Das ist einfach eine lächerliche Zahl (in zehn Sekunden könnte manlesennur einen kleinen Teil der gesamten Plattenoberfläche), so dass wir für dieses Laufwerk und Attribut 187 mit hoher Sicherheit davon ausgehen können,der Rohwert istetwas anderesals eine einfache Ganzzahlzählung.Es kann sein, dass der Rohwert in zwei Teile aufgeteilt ist, wobei entweder die hohen oder niedrigen Bits den tatsächlichen Wert kodieren und die anderen Bits etwas anderes kodieren. Der Hexadezimalwert des Rohwerts dieses Attributs ist 83D0 0005 01C8, wobei die Nullenfolge in der Mitte eine solche Kodierung anzeigt; obwohl dies sicherlich möglich ist, erscheint es unwahrscheinlich, dass eine zufällige Fehlerzählung eine so lange Nullenfolge in der Mitte aufweisen würde. Wenn wir zum Beispiel die unteren Bits (501C8 hex) nehmen, ergibt das 328.136 gemeldete Fehler, was zwar immer noch ziemlich viel klingt, abervielglaubwürdiger.

Endeffekt,SMART kann ein großartiges Überwachungstool sein, ist aber nicht dafür ausgelegt, alle Probleme zu erkennen und zu melden. Manche Laufwerke laufen noch lange, nachdem SMART anzeigt, dass sie eigentlich komplett kaputt sein sollten, und manche Laufwerke versagen katastrophal, obwohl SMART auch nach dem Ausfall sagt, dass alles in Ordnung ist. Betrachten Sie die SMART-Daten als das, was sie sind: ein Frühwarnsystem und Statusbericht.nichteine Art absolute Wahrheit über den Zustand des Laufwerks. Außerdem müssen Sie die Rohwerte mit kritischem Blick lesen, da deren Kodierung implementierungsdefiniert ist.Eher,Sie sollten sich den gemeldeten „Wert“ im Vergleich zum „Schwellenwert“ des Laufwerks ansehen, da diese vom Hersteller für das jeweilige Laufwerk sinnvoll definiert sein sollten.

Wenn Sie sich über die früheren ausstehenden Sektoren (die im Grunde genommen "schwer lesbar" sind) Sorgen machen,Führen Sie einen vollständigen Oberflächenscan mit SMART durch.Wenn sie als "ausstehend" zurückkommen, dann könnte es sich lohnen, darüber nachzudenken, das Laufwerk zu ersetzen, aber die einfache Tatsache ist, dass fast jedes LaufwerkmancheWährend seiner Nutzungsdauer werden fehlerhafte Sektoren auf dem Datenträger gespeichert, und er verfügt über eine Anzahl von Ersatzsektoren, um dies durch Neuzuweisung der fehlerhaften Sektoren auszugleichen. Für die Neuzuweisung müssen die Daten jedoch bekannt sein, sodass ein fehlerhafter Sektor nur während eines Schreibvorgangs in diesen Sektor neu zugewiesen werden kann.

verwandte Informationen