
Ich habe einen Server, der mit einem LSI 9271-8i RAID-Controller ausgestattet ist, mit 4 x 4 TB, organisiert als RAID-5 und 1 x 8 TB als JBOD (was im Controller RAID-0 genannt wird).
Wenn ich größere Datenmengen (~1 TB) kopiere, kann ich Folgendes beobachten: Für die ersten paar Gigabyte ist die Übertragungsgeschwindigkeit in Ordnung und wird durch die Festplatten- oder Netzwerkgeschwindigkeiten begrenzt, normalerweise ~100 MB/s. Aber nach einer Weile pausiert die Übertragung für ca. 20-30 Sekunden vollständig und wird dann mit den nächsten ca. 1 GB fortgesetzt. Ich kopiere viele Dateien mit jeweils zwischen 10 MB und 500 MB, und während der Pause bleibt Robocopy bei einer Datei und fährt nach der Pause mit der nächsten fort. Auf diese Weise sinkt die Gesamtübertragungsrate auf ~20 MB/s.
Während der Pause ist das Durchsuchen der Laufwerksdateien nicht möglich und in einem Fall erhielt ich eine Fehlermeldung zum Zurücksetzen des Controllers („Der Controller hat einen schwerwiegenden Fehler festgestellt und wurde zurückgesetzt“). Auch der Zugriff auf Controllerdaten mit dem CLI-Tool ist während dieser Pause nicht möglich (das Ergebnis wird angezeigt, wenn die Pause vorbei ist).
Dieses Verhalten konnte ich beim Kopieren beobachten
- Gigabit-Netzwerk zu RAID-5-Volume
- Gigabit-Netzwerk zum JBOD-Volume
- Von JBOD zu RAID-5
- RAID-5 zu JBOD
Es passiert nichts, was mir verdächtig vorkommt: Die Temperaturen (Festplatten, BBU) liegen im gültigen Bereich, die Controllertemperatur scheint etwas hoch, aber auch innerhalb der Spezifikationen. Es werden keine Überprüfungen des RAID durchgeführt, kein Neuaufbau ist im Gange.
Irgendwelche Ideen?
Bevor ich den Controller austausche, möchte ich versuchen, die thermische Situation zu optimieren. Klingt dieses Verhalten nach einem möglichen thermischen Problem?
Ich finde es seltsam, dass die ersten 20-30 GB einwandfrei funktionieren und die Pausen davor nicht auftreten. Wenn ich den Server eine Weile in Ruhe lasse und es erneut versuche, werden wieder ein paar GB problemlos kopiert. Die einzige naive Erklärung für mich ist, dass der Controller zu heiß wird. Warum der Controller und nicht die Festplatten? Die RAID-5-Festplatten haben 7200 U/min und sind sehr eng gestapelt, während die JBOD-Einzelfestplatte 5400 U/min hat und viel Luft um sie herum ist. Wäre seltsam, wenn beide die gleichen Überhitzungssymptome zeigen würden.
Antwort1
Ich hatte ein ähnliches Problem mit einem 9260-16i. Es lag nicht an den Temperaturen, da ich zwei 92-mm-Lüfter habe, die direkt auf den LSI blasen. Ich habe einen zweiten Server auf die gleiche Weise eingerichtet und der war in Ordnung. Was ich herausfand, war, dass der Server mit den Problemen auf eine Streifengröße von 64 K eingestellt war und der funktionierende Server eine Streifengröße von 256 K hatte. Ich habe den Problemserver gesichert und die Laufwerksgruppe mit 256 K-Streifen neu aufgebaut und dann das Betriebssystemlaufwerk mit 64 K-Clustern formatiert (da ich Dateien mit mehreren GB habe). Ich habe die Daten ohne Zögern zurückgeschoben und im Grunde mit voller Gigabit-NIC-Geschwindigkeit geschrieben, wobei ich über 350 GB pro Stunde ohne Unterbrechung und ohne Pausen geschrieben habe.
Antwort2
Das Problem hängt wahrscheinlich damit zusammen, dass der Controller seinen eigenen DRAM-Cache leert. Jeder, der ein solches Problem hat, sollte versuchen, den Controller-Cache auf writethrough
statt auf einzustellen.writeback