
Ich habe einen Server mit WDC WD3202ABYS ... Es gibt 100 virtuelle Hosts. Der Server läuft seit etwa 5 Jahren und in dieser Zeit habe ich 4 Festplatten ausgetauscht. Alle aus demselben Grund: SATA-Fehler. Die letzte:
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:60:57:7b:b6/00:01:06:00:00/e0 tag 0 dma 180224 out
res 51/10:60:57:7b:b6/10:01:06:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
Add. Sense: Recorded entity not found
Descriptor sense data with sense descriptors (in hex):
72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00
06 b6 7b 57
end_request: I/O error, dev sdb, sector 112622423
Buffer I/O error on device dm-8, logical block 14077747
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077748
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077749
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077750
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077751
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077756
lost page write due to I/O error on dm-8
ata2: EH complete
SCSI device sdb: 625142448 512-byte hdwr sectors (320073 MB)
sdb: Write Protect is off
sdb: Mode Sense: 00 3a 00 00
SCSI device sdb: drive cache: write back
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:90:17:30:b7/00:02:08:00:00/e0 tag 0 dma 335872 out
res 51/10:90:17:30:b7/10:02:08:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
Add. Sense: Recorded entity not found
Descriptor sense data with sense descriptors (in hex):
72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00
08 b7 30 17
end_request: I/O error, dev sdb, sector 146223127
printk: 34 messages suppressed.
Buffer I/O error on device dm-8, logical block 18277835
Sieht nach einem Softwarefehler aus ...
aber kurze Zeit danach (vielleicht als ich fsck gestartet habe) kam folgender Fehler:
EXT3-fs error (device dm-8): ext3_put_super: Couldn't clean up the journal
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/01:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x1 (device error)
ata2.00: status: { DRDY ERR }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
Ist es möglich, dass diese Fehler auch „Softwarefehler“ sind? Ich meine, diese Festplatte ist erst 9000 Stunden alt. Wo wird die Festplatte nicht zusätzlich belastet? Die Temperatur liegt bei 29 Grad Celsius. Muss ich die Festplatte austauschen? Oder reicht eine Überprüfung der Festplatte?
EXT3-fs error (device dm-8): ext3_put_super: Couldn't clean up the journal
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/01:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x1 (device error)
ata2.00: status: { DRDY ERR }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
Wie finde ich den Grund heraus?
Hier sind Fehler von smart:
Error 36 occurred at disk power-on lifetime: 9160 hours (381 days + 16 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 22 09 80 e3 Error: UNC at LBA = 0x03800922 = 58722594
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 08 1f 09 80 03 0a 47d+13:38:13.534 READ DMA
ec 00 00 00 00 00 00 0a 47d+13:38:13.530 IDENTIFY DEVICE
ef 03 46 00 00 00 00 0a 47d+13:38:13.528 SET FEATURES [Set transfer mode]
Ok. Ist folgendes Szenario möglich: 1. Die Festplatte war auf 9000 ohne fsck. 2. Es gibt einige Fehler. 3. In dmesg traten Fehler wie diese auf:
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:60:57:7b:b6/00:01:06:00:00/e0 tag 0 dma 180224 out
res 51/10:60:57:7b:b6/10:01:06:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
Add. Sense: Recorded entity not found
- Und Fehler wie Inode-Fehler und so weiter …
- Ich habe versucht, diese Partition auszuhängen, aber von der Festplatte kommt ein Fehler, z. B. dass ein solcher Inode nicht gefunden werden kann usw. …?
Wenn ja, dann verstehe ich das nicht. Muss ich die Festplatte jedes Jahr wechseln? Nur um diesen Fehler zu vermeiden? Hat jemand dasselbe Problem? Nicht nur mit einer Festplatte ...
Antwort1
Meiner Erfahrung nach sind die Fehler, die Sie sehen, tatsächlich Hardwarefehler, die sich in der Software widerspiegeln. Die Meldung „Seitenschreiben aufgrund eines E/A-Fehlers verloren“ ist eine, die ich bei fehlerhaften Festplatten gesehen habe, und sie verhält sich ähnlich wie Sie es beim Versuch, sie zu fsck. Dies ist mit ziemlicher Sicherheit ein echter Hardwarefehler.
Sie sollten die Ausgabe von smartctl überprüfen, um zu sehen, was dort als mögliches Problem angezeigt wird.
smartctl --attributes /dev/sdb
Sie erhalten eine Ausgabe ähnlich dieser:
=== BEGINN DES ABSCHNITTS „SMART DATA LESEN“ === Revisionsnummer der SMART-Attribute-Datenstruktur: 16 Anbieterspezifische SMART-Attribute mit Schwellenwerten: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 200 200 051 Vor dem Ausfall Immer - 0 3 Spin_Up_Time 0x0003 212 186 021 Vor dem Ausfall Immer - 4358 4 Start_Stop_Count 0x0032 100 100 000 Alter Immer - 97 5 Reallocated_Sector_Ct 0x0033 200 200 140 Vor dem Ausfall Immer - 0 7 Seek_Error_Rate 0x000f 200 200 051 Vor dem Ausfall Immer - 0 9 Einschaltstunden 0x0032 066 066 000 Alter Immer - 25420 10 Spin_Retry_Count 0x0013 100 253 051 Vor dem Ausfall Immer - 0 11 Calibration_Retry_Count 0x0013 100 253 051 Vor dem Fehlschlag Immer - 0 12 Power_Cycle_Count 0x0032 100 100 000 Alter Immer - 86 194 Temperatur_Celsius 0x0022 104 001 000 Alter Immer - 46 196 Reallocated_Event_Count 0x0032 200 200 000 Alter Immer - 0 197 Current_Pending_Sector 0x0012 200 200 000 Alter Immer - 0 198 Offline_Nicht korrigierbar 0x0010 200 200 000 Alter Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Alter Immer - 0 200 Multi_Zone_Error_Rate 0x0009 200 200 051 Vor dem Ausfall Offline - 0
Die Ausgabe kann kompliziert sein, aber ich würde besonders auf Reallocated_Sector_Ct achten, da dies angibt, welche bekannten fehlerhaften Sektoren die Festplatte hat. Der Befehl „smartctl -a“ liefert viel mehr Daten. Auf der fehlerhaften Festplatte, die ich vor einiger Zeit hatte, befindet sich am Ende der Ausgabe das „SMART-Fehlerprotokoll“, das einige Einträge enthielt.
Antwort2
Es ist ein nicht korrigierbarer Lesefehler aufgetreten.
Error: UNC at LBA = 0x03800922 = 58722594
Die Daten, die sich auf diesem Block befanden, sind jetzt verloren.
Du solltest:
- überhaupt einen Spiegel verwenden. Enterprise-Festplatten sind eigentlich für die Verwendung hinter einem Spiegel vorgesehen und geben eher einen Lesefehler zurück, als sich wirklich anzustrengen, um an die Daten zu gelangen.
- Stellen Sie verlorene Daten aus Backups wieder her
Sie haben KEINE ENTSCHULDIGUNG, RAID nicht zu verwenden (insbesondere, wenn Sie Websites für Kunden hosten!) – das Betriebssystem ist nicht so groß, Sie benötigen dafür keine dedizierte Festplatte auf einem 2-Festplatten-System.
Antwort3
Verwenden Sie einen RAID-Controller? Welche Art von Controller verwenden Sie?
Eines der Dinge (das sowohl frustrierend als auch aufschlussreich ist) ist die zunehmende Segmentierung, die Festplattenhersteller in den SATA-Markt einführen. Es gibt jetzt Laufwerke für „kleine Unternehmen/RAID-Nutzung“ und „Einzel-/Desktop-Nutzung“. SAS scheint für den „High-End-Unternehmensmarkt“ forciert zu werden.
Ihre Modellnummer ist die Laufwerksserie RE3 von WD, die für RAID-Setups entwickelt wurde. Mir wurde gesagt, dass dies unter anderem bedeutet, dass das Laufwerk beim Versuch, Fehler zu reparieren, früher „aufgibt“ (d. h. innerhalb von 3–4 Sekunden), anstatt es über einen längeren Zeitraum immer wieder zu versuchen. Durch das frühere Aufgeben wird der Fehler dem RAID-Controller gemeldet, sodass dieser ein anderes Laufwerk zur Wiederherstellung verwenden kann. Wenn das Laufwerk stattdessen länger wartet, würde der RAID-Controller das Laufwerk aus dem Array werfen, weil es nicht reagiert.
Fehler solltenTrotzdemselten sein und nicht einmal im Jahr. Vielleicht liegt es an einem anderen Aspekt Ihres Setups? (Ich hatte einmal einen frustrierenden Kampf mit einem SATA-Kabel. Es ist jetzt als Warnung für andere Kabel über meiner Tür angebracht ...)
Antwort4
Ich habe mit Laufwerken von Western Digital sehr schlechte Erfahrungen gemacht. Mehr als die Hälfte meiner Laufwerke musste im Rahmen der Garantie aufgrund von Totalausfällen oder fehlerhaften Sektoren ausgetauscht werden.
Nachdem ich etwa 8 Jahre lang nur WD-Laufwerke gekauft habe, möchte ich kein Geld mehr für sie ausgeben. Ich habe keine Ahnung, welchem WD-Laufwerk ich vertrauen kann; meine bisherigen Erfahrungen sagen: „Keinem von ihnen“.
Sie haben das Originallaufwerk viermal ausgetauscht. Haben Sie alle fünf Laufwerke gleichzeitig gekauft? Haben Sie jedes Laufwerk neu gekauft, wenn es kaputt ging? Haben Sie das Laufwerk im Rahmen der Garantie gegen Ersatz eingesendet? Wie und wann haben Sie die fünf Laufwerke erworben und welche Modelle waren das? Meiner Erfahrung nach sind mehrere Chargen von WD-Laufwerken oft defekt und fallen gleichzeitig aus.