Ich betreue einen Server für einen Kunden. Es handelt sich um einen Intel Nehalem-basierten Computer, also nicht neu, aber funktionsfähig. Er hat eine 3ware 9650SE-24M8-Karte mit 20 angeschlossenen Laufwerken und 4 leeren Steckplätzen, die in 5 RAID-5-Arrays konfiguriert sind. Drei dieser Arrays bestehen aus 2-TB-Laufwerken, die anderen beiden aus 3-TB-Laufwerken. In den letzten zwei Wochen haben wir 3 3-TB-Laufwerke aus demselben Array verloren, zwei am selben Tag. Wir machen jede Nacht Backups, sodass es zu keinem Datenverlust kommt, aber die Ausfallzeit ist teuer, ebenso wie die Ersatzfestplatten. Mit verloren meine ich, dass die Karte einen ECC-Fehlerstatus meldet. Die 2-TB-Laufwerke haben fast 25.000 Betriebsstunden, die 3-TB-Laufwerke fast 10.000 Betriebsstunden.
Die Umgebungstemperatur beträgt etwa 25 °C, während die Laufwerke (laut Smart) im Leerlauf bei etwa 28–30 °C laufen. Als Betriebssystem dient Fedora Linux 13 amd64 (ich versuche seit sechs Monaten, ein Upgrade durchzuführen, aber es gelingt mir nicht, den Betrieb stabil genug hinzubekommen, um mich dafür bereit zu fühlen).
Ich weiß an diesem Punkt nicht, was ich tun soll. Bis jetzt sind zwei Laufwerke kaputtgegangen, beide 1 TB groß und ziemlich alt, und im Abstand von mehreren Monaten. Hilfe oder Vorschläge?