
Ich habe hier eine etwas beunruhigende Situation. Ich hoffe, jemand kann mir helfen, herauszufinden, was los ist.
Hintergrund
Ich habe vor etwa fünf Jahren einen ZFS-Server mit FreeNAS für Backup und Speicherung gebaut, angefangen mit einem RAID-Z2-Array mit 6 x 8 TB Festplatten. Das funktioniert bis heute einwandfrei. Das Gerät hat keine weiteren Aufgaben außer der Bereitstellung von CIFS-Freigaben.
Der Server ist die meiste Zeit offline (da er ein riesiger Stromfresser ist). Er wird nur gelegentlich eingeschaltet, um Backups durchzuführen, Dateien zu kopieren, Datenträger zu bereinigen und dergleichen.
Vor einigen Jahren habe ich beschlossen, dieses Setup (wie geplant) um weitere sechs Festplatten zu erweitern, ebenfalls in RAID Z2. Dieses Array, das an dieselbe Hardware wie das erste angeschlossen ist, hat jetzt einige einzelne Festplatten „entfernt“ (eine nach der anderen), die ich ersetzt habe. Diese Festplatten bestehen alle Oberflächenscans, daher ging ich davon aus, dass es eine Art Inkompatibilität mit ZFS gab.
Entfernte Laufwerke
Letzte Woche habe ich es wieder eingeschaltet und aus heiterem Himmel hat es beschlossen, zwei Laufwerke zu entfernen. Da dies das Maximum ist, das verloren gehen kann, ohne dass das Volume verloren geht, habe ich sofort zwei neue bestellt, einen vollständigen Lesetest mit Western Digital Data Lifeguard durchgeführt (der beide bestanden hat) und die alten ersetzt. Das Array wurde neu versilbert und wieder als „HEALTHY“ gekennzeichnet. Die entfernten Laufwerke habe ich zusätzlich mit DLG getestet und überraschenderweise haben sie auch bestanden. Nachdem das Neuversilbern abgeschlossen war, habe ich dann begonnen, Backups auf diesem Volume auszuführen.
DAS PROBLEM
Ich habe gerade herausgefunden, dass VIER von sechs Laufwerken entfernt wurden, wodurch das Volume nicht mehr verfügbar ist, sondern nur noch schlechter funktioniert. Dazu gehören die beiden brandneuen Laufwerke und zwei weitere, von denen eines vor etwa fünf Tagen ebenfalls vorübergehend Probleme verursachte, sich aber anscheinend von selbst erholt hat. Das vierte entfernte Laufwerk schien bis vor Kurzem ohne Probleme zu funktionieren.
Meine Frage ist:was könnte die Ursache dafür gewesen sein?(und natürlich: Wie kann ich die Lautstärke hoffentlich wiederherstellen und schließlich verhindern, dass dies erneut passiert?)
Ich untersuche einige Möglichkeiten und würde mich über jeden Hinweis dazu freuen :)
Leistung: Da dies unter Druck passiert ist, frage ich mich, ob dies ein Stromproblem sein könnte. Das Netzteil ist ein Seasonic G-Series G-550W PCGH-Edition, das ausreichen sollte (Festplatten werden, wenn ich mich recht entsinne, zusätzlich gestaffelt hochgefahren). Was ebenfalls dagegen spricht, ist, dass beide Arrays normalerweise gleichzeitig bereinigt werden und das Resilvering von zwei Laufwerken auf dem jetzt NICHT VERFÜGBAREN Volume ohne Probleme abgeschlossen wurde. Und ich habe vor ein paar Tagen einige große Dateien auf das erste Array kopiert, was auch keine Probleme verursacht hat. Wenn ein 6x8TB-Array unter Druck gesund bleiben kann, warum sollte das andere Array dies unter denselben Umständen nicht können? Beachten Sie, dass sie nicht gleichzeitig unter Druck gesetzt wurden und es vorher längere Zeiträume gab, in denen es mit beiden Volumes kein Problem gab.
Temperatur: Die beiden Laufwerke, die am meisten Probleme bereiten, befinden sich in einem zweiten Laufwerksschacht hinter dem Hauptschacht. Obwohl die Luft, die diese erreicht, eine höhere Temperatur aufweisen wird, habe ich hinter dem zweiten Schacht auch einen Lüfter angebracht, der die Luft von dort aktiv absaugt (die durch abgedichtete Trennwände gezielt um diesen Schacht herum geleitet wird), sodass ein höherer Luftstrom vorhanden sein sollte.
Ich fürchte, ich bin noch nicht dazu gekommen, die Überwachung der Festplattentemperatur einzurichten (es sei denn, es gibt eine Standardfunktion, die ich nicht kenne). Die CPU-Temperatur wird überwacht, aber das hilft in dieser Hinsicht natürlich nicht weiter. Die problematischen Festplatten sind auch aus der Berichtsübersicht verschwunden, sodass ich ihren E/A-Verlauf derzeit nicht einmal sehen kann.
Regler: Das zweite Array ist an einen Delock PCI Express SATA-Controller angeschlossen. Ich frage mich, ob dieses Ding vielleicht mit dem Datendurchsatz nicht zurechtkommt. In diesem Fall bin ich mir allerdings nicht sicher, wie ich das testen könnte. Und ich bin mir auch nicht sicher, warum vier Laufwerke entfernt werden und zwei andere im selben Array bis zu diesem Moment normal weiterlaufen (als „ONLINE“ gemeldet).
SATA-Kabel: Diese muss ich noch testen, also wird noch bekannt gegeben. Die Kabel sind ordentlich verstaut und verbiegen sich nicht stark, aber sie können natürlich mit der Zeit kaputtgehen. Die Möglichkeit, dass vier Laufwerke im selben Array am selben Tag aufgrund von Verkabelung nicht verfügbar sind, lässt dies auf meiner Liste der Verdächtigen allerdings sehr weit unten erscheinen.
Hardware:
- Hauptplatine: MSI C236M WORKSTATION (mit sechs SATA-Ports, in Verwendung von Array Nr. 1)
- CPU: Intel Xeon E3-1275 v5
- Erinnerung: Kingston KVR21E15D8K2 x2 (ECC)
- Netzteil: Seasonic G-Series G-550W PCGH-Edition
- Zweiter Controller: Delock PCI Express x2 Karte -> 10 x intern SATA III - LP
- Anordnung Nr. 1(6x 8TB im RAID-Z2, seit 5 Jahren stabil im Betrieb):
- WD80EFZX x3
- ST8000VN0002 x2
- ST8000DM002 x1
- Anordnung Nr. 2(6x 8 TB im RAID-Z2):
- WD80EFAX (keine Probleme)
- ST8000VN0022 (einmal zuvor entfernt, DLG bestanden und funktioniert derzeit normal)
- WD80EFAX x2 (vorhandene Laufwerke, jetzt auch entfernt)
- WD80EFZZ x2 (neue Ersatzlaufwerke, jetzt entfernt)
- ST8000VN0022 x2 (vor einigen Tagen entfernt, durch WD80EFZZ x2 ersetzt)