HDD & SSD Linux: Link zum Hard-Reset

HDD & SSD Linux: Link zum Hard-Reset

mein aktuelles Speicher-Setup besteht aus zwei herkömmlichen Festplatten und zwei SSDs in meiner Linux-Box, jede davon in ihrem eigenen RAID-1-Array, das über Luks verschlüsselt ist. Ich habe eher eine Art Geschichte als eine konkrete Frage.

Seit über einem Jahr bekomme ich von einigen meiner Laufwerke zufällig „Hard Resetting Link“-Fehler im Kernel-Protokoll. Ich schickte das problematische Laufwerk zurück und die neuen Laufwerke ließen das Problem verschwinden. Ein paar Monate später tauchte derselbe Fehler scheinbar zufällig wieder auf. Das Laufwerk wurde im RAID als fehlerhaft markiert und tauchte nicht mehr auf fdisk -l. Ich startete den Computer neu und das Laufwerk tauchte wieder auf. Ich konnte es erneut zum Array hinzufügen und es wurde neu aufgebaut. Früher oder später trat das Problem erneut auf, normalerweise ein paar Stunden später.

Vor etwa sechs Monaten habe ich zwei der herkömmlichen Festplatten durch SSDs ersetzt, in der Hoffnung, dass sie nicht annähernd so viele Fehler aufweisen würden wie die herkömmlichen Laufwerke. In den letzten Tagen hatte ich jedoch sowohl mit einer der neuen SSDs als auch mit einem der herkömmlichen Laufwerke Probleme.

Ich erkenne langsam ein Muster. Ich bekomme ein neues Laufwerk und ein paar Monate später habe ich Probleme damit. Ich bin immer davon ausgegangen, dass es an der hohen Ausfallrate von Festplatten liegt, aber jetzt passiert es auch mit SSDs, also denke ich, dass es nicht die Schuld des Laufwerks ist. Was könnte sonst das Problem sein? Ich habe seit dem Auftreten des Problems mehrere Betriebssysteme installiert, daher möchte ich ein Softwareproblem ausschließen. Bleiben also entweder die SATA-Kabel oder das Motherboard. Könnte die Festplattenverschlüsselung die Laufwerke zu stark belasten? Kann ich irgendetwas tun, um weitere Informationen zu erhalten? Danke wie immer.

Unten sehen Sie die dmesgAusgabe des Problems aus einer Frage, die ich vor einigen Monaten gestellt habe, als ich das gleiche Problem hatte.

[43161.734107] ata3: ATA_REG 0x41 ERR_REG 0x84
[43161.734110] ata3: tag : dhfis dmafis sdbfis sactive
[43161.734113] ata3: tag 0x0: 1 1 0 1  
[43161.734123] ata3.00: exception Emask 0x1 SAct 0x1 SErr 0x180000 action 0x6 frozen
[43161.734127] ata3.00: Ata error. fis:0x21
[43161.734130] ata3: SError: { 10B8B Dispar }
[43161.734134] ata3.00: failed command: READ FPDMA QUEUED
[43161.734142] ata3.00: cmd 60/08:00:a8:03:00/00:00:00:00:00/40 tag 0 ncq 4096 in
[43161.734144]          res 41/84:04:a8:03:00/84:00:00:00:00/40 Emask 0x10 (ATA bus error)
[43161.734148] ata3.00: status: { DRDY ERR }
[43161.734150] ata3.00: error: { ICRC ABRT }
[43161.734155] ata3: hard resetting link
[43161.734158] ata3: nv: skipping hardreset on occupied port
[43162.220095] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43162.260202] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43162.260206] ata3.00: revalidation failed (errno=-19)
[43162.260211] ata3.00: limiting speed to UDMA/133:PIO2
[43167.220123] ata3: hard resetting link
[43167.220127] ata3: nv: skipping hardreset on occupied port
[43167.710060] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43167.750228] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43167.750232] ata3.00: revalidation failed (errno=-19)
[43167.750236] ata3.00: disabled
[43172.710100] ata3: hard resetting link
[43173.620110] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43173.640455] ata3.00: failed to IDENTIFY (INIT_DEV_PARAMS failed, err_mask=0x80)
[43178.620116] ata3: hard resetting link
[43179.530113] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43179.550748] ata3.00: ATA-8: WDC WD2002FAEX-007BA0, 05.01D05, max UDMA/133
[43179.550753] ata3.00: 3907029168 sectors, multi 16: LBA48 NCQ (depth 31/32)
[43179.570208] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43179.570213] ata3.00: revalidation failed (errno=-19)
[43179.570220] ata3: limiting SATA link speed to 1.5 Gbps
[43179.570224] ata3.00: limiting speed to UDMA/133:PIO3
[43184.530066] ata3: hard resetting link
[43184.530070] ata3: nv: skipping hardreset on occupied port
[43185.020091] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43185.060949] ata3.00: configured for UDMA/133
[43185.060969] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[43185.060974] sd 2:0:0:0: [sdd]  Sense Key : Aborted Command [current] [descriptor]
[43185.060980] Descriptor sense data with sense descriptors (in hex):
[43185.060983]         72 0b 47 00 00 00 00 0c 00 0a 80 00 00 00 00 00 
[43185.060995]         00 00 03 a8 
[43185.061000] sd 2:0:0:0: [sdd]  Add. Sense: Scsi parity error
[43185.061006] sd 2:0:0:0: [sdd] CDB: Read(10): 28 00 00 00 03 a8 00 00 08 00
[43185.061017] end_request: I/O error, dev sdd, sector 936
[43185.061023] Buffer I/O error on device sdd, logical block 117
[43185.061044] sd 2:0:0:0: rejecting I/O to offline device
[43185.061048] sd 2:0:0:0: killing request
[43185.061062] ata3: EH complete
[43185.061075] sd 2:0:0:0: rejecting I/O to offline device
[43185.061123] sd 2:0:0:0: rejecting I/O to offline device
[43185.061134] sd 2:0:0:0: rejecting I/O to offline device
[43185.061140] sd 2:0:0:0: rejecting I/O to offline device
[43185.061145] sd 2:0:0:0: [sdd] READ CAPACITY(16) failed
[43185.061147] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[43185.061152] sd 2:0:0:0: [sdd] Sense not available.
[43185.061155] sd 2:0:0:0: rejecting I/O to offline device
[43185.061166] sd 2:0:0:0: rejecting I/O to offline device
[43185.061175] sd 2:0:0:0: rejecting I/O to offline device
[43185.061185] sd 2:0:0:0: rejecting I/O to offline device
[43185.061193] sd 2:0:0:0: rejecting I/O to offline device
[43185.061198] sd 2:0:0:0: [sdd] READ CAPACITY failed
[43185.061202] sd 2:0:0:0: rejecting I/O to offline device
[43185.061209] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[43185.061215] sd 2:0:0:0: [sdd] Sense not available.
[43185.061226] sd 2:0:0:0: rejecting I/O to offline device
[43185.061235] sd 2:0:0:0: rejecting I/O to offline device
[43185.061245] sd 2:0:0:0: rejecting I/O to offline device
[43185.061254] sd 2:0:0:0: rejecting I/O to offline device
[43185.061263] sd 2:0:0:0: rejecting I/O to offline device
[43185.061274] sd 2:0:0:0: rejecting I/O to offline device
[43185.061280] sd 2:0:0:0: [sdd] Asking for cache data failed
[43185.061283] sd 2:0:0:0: [sdd] Assuming drive cache: write through
[43185.061289] sdd: detected capacity change from 2000398934016 to 0
[43185.061610] ata3.00: detaching (SCSI 2:0:0:0)
[43185.062444] sd 2:0:0:0: [sdd] Stopping disk
[43249.120042] ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[43249.120046] ata4.00: failed command: FLUSH CACHE EXT
[43249.120051] ata4.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
[43249.120052]          res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[43249.120054] ata4.00: status: { DRDY }
[43249.120059] ata4: hard resetting link
[43249.120060] ata4: nv: skipping hardreset on occupied port
[43249.610042] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43249.650323] ata4.00: configured for UDMA/133
[43249.650326] ata4.00: retrying FLUSH 0xea Emask 0x4
[43249.650452] ata4.00: device reported invalid CHS sector 0
[43249.650458] ata4: EH complete

Antwort1

Sie haben hier eine Frage. Ich denke (wenn ich das richtig verstehe), wie wird ermittelt, was diesen Fehler verursacht?

Ich bin Netzwerksicherheitsingenieur. Verstehen Sie also, dass ich beim Tippen zusammenzucke. Schließen Sie dies als Verschlüsselungsproblem aus. Entschlüsseln Sie die Laufwerke und prüfen Sie, ob das Problem weiterhin besteht. Der Nachteil ist, dass Sie sie mehrere Monate lang entschlüsselt verwenden müssen.

Kabel sind ein einfacher Test (und Sie sollten dort zuerst beginnen). Tauschen Sie sie aus, aber ich kann kaum glauben, dass das das Problem ist, es sei denn, Sie haben Neonlichter in Ihrem Gehäuse.

Bleibt noch das Motherboard. Wenn es nicht die anderen beiden sind ...

Ich bin sicher, dass sich jemand melden wird, wenn er mit meiner Fehlerbehebung nicht einverstanden ist. Das Auswechseln der Kabel ist nicht teuer und die vorübergehende Deaktivierung der Verschlüsselung stellt ein Sicherheitsrisiko dar, bei dem nur Sie entscheiden können, ob Sie bereit sind, es zu akzeptieren.

Antwort2

Es sieht so aus, als ob Ihre SATA-Verbindung viele Fehler aufweist. Infolgedessen kann der Host Befehle nicht zuverlässig über die Verbindung empfangen, und wenn dies der Fall ist, sind die zurückgegebenen Daten manchmal beschädigt.

Sie sehen das in Nachrichten, dass die Geschwindigkeit begrenzt ist oder dass die erwartete Laufwerkskennung nicht empfangen wurde. Sie sehen auch verwirrende Nachrichten von verschiedenen Ebenen des Treibers, die nicht unbedingt widerspiegeln, was auf der Hardwareebene von SATA vor sich geht. Beispielsweise gilt „Begrenzung der Geschwindigkeit auf UDMA/133:PIO3“ streng genommen nur für parallele ATA-Laufwerke (es bedeutet nur, dass der Treiber eine langsamere Schnittstellengeschwindigkeit ausprobiert, um zu sehen, ob die Fehler behoben werden), aber die Fehlermeldungen zeigen deutlich, dass die unterste Ebene, die sich tatsächlich mit der Hardware befasst, versteht, dass sie mit einem SATA-Laufwerk kommuniziert.

Ihre Vermutung, dass es an den SATA-Kabeln liegen könnte, ist gut. Versuchen Sie, sie auszutauschen, und stellen Sie sicher, dass sie für SATA 3,0 Gb/s (auch „SATA 2“ oder „SATA II“ genannt) ausgelegt sind. Ich glaube nicht, dass Ihre Laufwerke das Problem sind. Warum dauert es mehrere Monate, bis die Fehler nach dem Austausch des Laufwerks auftreten? Vielleicht lösen sich die Kabel irgendwie und durch den Austausch des Laufwerks werden sie neu eingesetzt. Oder vielleicht ist es einfach nur Zufall.

verwandte Informationen