Ubuntu Server mdadm drbd ocfs2 kvm bleibt bei starkem Dateilesen hängen

Ubuntu Server mdadm drbd ocfs2 kvm bleibt bei starkem Dateilesen hängen

Ich habe vier Ubuntu 10.04-Server eingesetzt. Sie sind paarweise in einem Cluster-Szenario gekoppelt. Auf beiden Seiten haben wir Software-RAID1-Festplatten, DRBD8 und OCFS2 und darüber hinaus laufen einige KVM-Maschinen mit QCow2-Festplatten.

Ich bin folgendem gefolgt:Verknüpfung

corosync wird nur für DRBD und OCFS verwendet, die KVM-Maschinen werden „manuell“ betrieben

Wenn es funktioniert, ist alles in Ordnung: gute Leistung, gute E/A, aber zu einem bestimmten Zeitpunkt begann einer der beiden Cluster zu hängen. Dann haben wir es mit nur einem eingeschalteten Server versucht und er hängt immer noch. Es scheint zu passieren, wenn in einer der virtuellen Maschinen ein starker Lesevorgang stattfindet, also während der rsyn-Sicherung. Wenn das passiert, sind die virtuellen Maschinen nicht mehr erreichbar und der reale Server antwortet mit guter Verzögerung auf den Ping, aber es ist kein Bildschirm und kein SSH verfügbar.

Wir können nur das Herunterfahren erzwingen (die Taste gedrückt halten) und neu starten. Wenn es wieder eingeschaltet wird, wird der Raid, auf dem das Relay DRBD neu synchronisiert wird, neu synchronisiert. Das sehen wir die ganze Zeit, wenn es hängt.

Nach ein paar Wochen voller Probleme auf einer Seite hing heute Morgen auch der andere Cluster, aber er hat ein anderes Motherboard, RAM und andere KVM-Instanzen. Ähnlich ist das Lesen für das Rsync-Szenario und Western Digital RAID Edition-Festplatten auf beiden Seiten.

Kann mir jemand Vorschläge zur Lösung dieses Problems geben?

UPDATE: Ich habe alle Images von qcow2 in RAW konvertiert und das Dateisystem aus der virtuellen Maschine heraus mit noatime und nodiratime gemountet. Ich habe Ionice für rsync verwendet, aber heute Morgen blieb es wieder hängen, während ein Benutzer viele Dateien von einer Samba-Freigabe gelesen hat. Jetzt verschiebe ich die Images der virtuellen Maschinen von ocfs2 auf ext3, aber das ist wirklich ein Reinfall... alle Ideen sind willkommen.

Antwort1

Für mich klingt es so, als müssten Sie ein anderes Speicherschema ausprobieren (wenn Sie jedoch vorab zugewiesene RAW-Festplatten mit den VMs verwenden, vermeiden Sie einige der Gemeinkosten, und Sie benötigen qcow2 wirklich nur, wenn Sie Snapshots verwenden).

Laufen die VMs ohne Clustering stabil, wenn nur die lokalen Festplatten verwendet werden?

Haben Sie versucht, dem Rsync-Prozess mit Ionice eine höhere Nice-Ebene zuzuweisen, damit nicht alles andere kaputt geht?

Hast du mit GFS statt mit ocfs2 getestet? Könnte besser sein, und du hast eine Beschreibung in der Anleitung, zu der du einen Link gepostet hast

verwandte Informationen