Wiederholter Festplattenfehler auf dem Dell T610-Server

Wiederholter Festplattenfehler auf dem Dell T610-Server

Ich habe ein gebrauchtes Poweredge T610 gekauft und es auf 2x Hexcore Xeon X5675 Prozessoren und 96 GB RAM aufgerüstet. Zunächst habe ich 3 WD Green 2TB-Laufwerke in einem RAID-5-Array (Perc6i-Controller) verwendet und Ubuntu Server auf der virtuellen Festplatte installiert. Dieses Setup hat mir etwa ein Jahr lang gute Dienste geleistet, dann begannen die Probleme:

Ich habe einige neue Laufwerke gekauft, um sie als zweites Array zu erweitern – 4 x 3 TB WD Red-Laufwerke. In der Zwischenzeit hatte ich gelernt, dass zumindest WD Green keine gute Wahl ist, also wollte ich einige Daten auf dem neuen VD sichern. Es stellte sich heraus, dass der Perc6i keine Laufwerke >2 TB mag, aber er erkannte die ersten 2 von 3 TB. Ich hatte noch nicht angefangen, ein VD mit den neuen Laufwerken einzurichten, aber 3 Wochen später begann mein WD Green-Array zu korrumpieren (zuerst nur seltsame Glyphen in einigen Programmen, dann schwerwiegendere Probleme bis hin zu einer beschädigten Startreihenfolge). Ich landete bei einem professionellen Datenrettungsdienst, der mir glücklicherweise helfen konnte. Ich tauschte den Perc6i gegen einen H700 aus und richtete ein RAID6-Array aus 4 3 TB WD Red-Laufwerken ein (die ich vor der Einrichtung mit dem erweiterten Dell Hardware Diagnostics-Test getestet habe – auf keinem von ihnen traten Fehler auf). Installiere Ubuntu, alle Software, die ich brauche, x2go usw. … Und es läuft wieder.

Jetzt habe ich das gleiche Problem wie vorher - in X2go startet es mit derselben Software (Bioinformatik-Artemis-Paket), die Glyphen in der Befehlszeile ausspuckt, und es scheint, als wäre ich wieder ganz am Anfang. Alle Status-LEDs an den Caddies leuchten konstant grün, d. h. online. Zumindest erkennt das System keinen vorhergesagten Fehler.

Ich frage mich langsam, was das Problem sein könnte:

Was ich für unwahrscheinlich halte: - Ausfall der primären Festplatte (schon wieder!), da die Laufwerke neu waren, bei längeren Tests keine fehlerhaften Sektoren aufwiesen und überhaupt nicht viel Zeit im eingeschalteten Zustand verbrachten. - Der Perc6i-Controller wurde nach dem ersten Desaster gegen einen H700 ausgetauscht und sollte nicht das Problem sein.

Bei der Beurteilung brauche ich Hilfe: - Probleme mit der Backplane/Kabel? (Der H700-Controller wurde mit Kabeln für einen anderen Servertyp geliefert, die nicht in mein Gehäuse passten – ich habe einfach ein anderes SATA6-Kabel verwendet, um den Controller mit der Backplane zu verbinden.) Die Laufwerke befinden sich übrigens in denselben Schächten wie die vorherigen, defekten, und sind mit einem Original-SATA-Kabel von Dell verbunden.

-Motherboard-Probleme? -CPU- oder RAM-Probleme? -Stromversorgung (Spannungsspitzen??)

Hatte jemand schon einmal ein ähnliches Problem? Jede Hilfe ist hier sehr willkommen. Leider bin ich noch zwei Wochen weg, bevor ich auf den Server zugreifen kann (sowohl physisch als auch über das Netzwerk). Das Problem wurde von meiner Frau „gemeldet“, die mit dem Server in unserem lokalen Netzwerk arbeitet (aber leider nicht bei der Fehlerbehebung helfen kann).


Ja, ich habe die komplette Dell-Hardwarediagnose ohne Probleme ausgeführt. Nur eines der Laufwerke wurde mit defekten Blöcken erkannt, aber ich konnte das RAID-5-Array nicht wiederherstellen, daher der Datenrettungsspezialist. Die restliche Hardware war in Ordnung

Ich frage mich nur, ob es irgendwo inkonsistente Probleme wie fehlerhafte Kontakte geben könnte, die an einem Punkt die Tests durchlaufen und an einem anderen Punkt fehlschlagen können. Oder ob die Tests nicht alle Szenarien abdecken ...

Antwort1

Aus Erfahrung klingt es nach einem RAM-Beschädigungsproblem. Als erstes würde ich ein Speicherdiagnosetool ausprobieren. Dell stellt solche Tools zum Download zur Verfügung.

Wenn dabei keine Fehler gefunden werden, würde ich die gesamte Hardware entfernen, um sie auf das absolut notwendige Minimum zu reduzieren, und sie dann wieder hinzufügen, bis Sie das Problem sehen. Sehr zeitaufwändig, aber manchmal die einzige Möglichkeit, wenn die Diagnose nichts zeigt. Natürlich ist dies bei Festplatten schwierig, aber bei CPU und RAM geht es. Vergessen Sie nicht, die Dinge einzeln wieder hinzuzufügen, sonst wissen Sie nicht, welches schuld ist.

Mein anderer Vorschlag ist, einen Hypervisor zu verwenden und virtuelle Maschinen zu erstellen, anstatt auf Bare Metal zu installieren. Dadurch wird die Wiederherstellung der Funktionalität bei Ausfällen viel einfacher. Wenn Sie außerdem vor der Installation von Anwendungen ein Backup-Regime einrichten, können Sie vermeiden, erneut Datenwiederherstellungsdienste zu benötigen.

Antwort2

Pech gehabt? Testen Sie die Festplatte bitte in einem anderen neuen Computer, um ihren aktuellen Status zu sehen.

Bedenken Sie, dass ein T610 etwa 9 Jahre alt ist. Ich bin ehrlich davon überzeugt, dass jeder aktuelle Desktop schneller ist als ein T610.

Die Laufwerks-Firmware kann Auswirkungen haben, aber Ihr Array würde sie als fremde Datenträger kennzeichnen. Die Tatsache, dass Sie sie alle auf einmal geändert haben, ist besser. Kein Dell-Laufwerk mit ihrer Firmware mit einem Standard-Laufwerk gemischt, der Controller würde das nicht zulassen.

Ihre Firmware auf der Festplatte ermöglicht dem Controller erweiterte Funktionen mit der Festplatte, während ein Array sich normal verhält, wenn eine Standardfestplatte mit normaler Firmware verwendet wird.

Die Tatsache, dass Ihr Array erkannt wurde, lässt mich glauben, dass der Controller sie sehen und verwenden kann. Deshalb sage ich zunächst Pech gehabt.

verwandte Informationen