Perfmon-Festplattenindikatoren im Vergleich zu einem SAN

Perfmon-Festplattenindikatoren im Vergleich zu einem SAN

Ich bin kein Speichertyp. Ich weiß, wie man SAN buchstabiert und ein paar Grundlagen darüber hinaus, aber nicht viel mehr.

Sind Standard-Festplattenzähler zuverlässig, wenn es um die Messung von SAN-Speicher geht? Wir haben zwei MS SQL (2005)-Server, die beide an dasselbe SAN angeschlossen sind und bei denen es gestern Probleme gab. Wir haben keine Kontrolle über die Hardware, daher habe ich nicht viele Informationen darüber, wie der Speicher konfiguriert ist, außer dem, was ich über Veritas Enterprise Admin bis hin zur LUN sehe (also nur die grundlegende Volume-Konfiguration). Ich habe keinen Zugriff auf die Tools zur Überwachung des Durchsatzes auf den Controllern oder Switches.

Stattdessen habe ich Leistungsmonitor-Zähler ausgeführt (% Festplattenzeit für physische und logische Festplatten, Festplattenwarteschlangenlänge für physische und logische Festplatten). Die Zahlen für % Festplattenzeit für physische Festplatten scheinen einfach verrückt – bis zu 32000 % (ja, 32 KB).

Stimmt das, oder liege ich mit der Annahme richtig, dass zur Erstellung dieser Metrik etwas von unterhalb der LUN-Ebene aggregiert wird und dieser Zähler nichts ist, was ich für den SAN-Speicher verwenden sollte?

BEARBEITEN:
Ich sollte hinzufügen, dass wir kürzlich festgestellt haben, dass eines der 32 Cache-Module Probleme hat und aus dem Mix genommen wurde. Ich weiß, dass es ein Hitachi ist, aber ich kenne keine Einzelheiten zum Modell.

AKTUALISIEREN:
Hitachi hat gerade das fehlerhafte Speichermodul ausgetauscht und die Glasfaser-Port-Karte neu initialisiert. Jetzt scheint alles wieder normal zu sein. Danke für die Infos, Leute!

Antwort1

Die scheinbar verrückten Zahlen für „%Disk Time“ weisen zwar auf etwas hin, aber aufgrund der Art und Weise, wie „%Disk Time“ von Perfmon abgeleitet wird, sind Zahlen über 100 % nicht unmöglich.

„%Disk time“ ist eigentlich ein berechneter Indikator und stammt von:

Avg Disk Sec/Transfer * Disk Transfers/sec. 

Durchschnittliche Festplattensekunde/Übertragung nimmt die Summe der Abschlusszeiten für alle IOs im aktuellen Intervall und dividiert sie durch die Anzahl der IOs, wodurch sich eine durchschnittliche End-to-End-Abschlusszeit ergibt. Festplattenübertragungen pro Sekunde ist einfach die Gesamtzahl der abgeschlossenen IOs dividiert durch das Intervall.

Viele dieser IOs wurden möglicherweise außerhalb des aktuellen Intervalls initiiert, sodass ihr Produkt >100 % sein kann. Dies kann auf jedem System passieren, wird aber auf komplexen Festplatten-Arrays wie einem SAN häufiger 100 % überschreiten.

Aufgrund der Berechnungsweise sagt Ihnen die %Disk Time nicht viel, obwohl sie Ihnen in diesem Fall anzeigt, dass etwas nicht stimmt. Die Berechnung der Auslastung mit (100-%Leerlaufzeit) ist eine bessere Idee, da die %Leerlaufzeit tatsächlich direkt gemessen wird.

Die Warteschlangenlängen der Festplatten können viel größer sein als bei einem einfachen lokalen Speichersetup, aber im Allgemeinen gilt: Wenn die Warteschlangenlänge gleich der Anzahl der Spindeln ist, die die LUN sichern, dann werden Dinge gesichert, insbesondere wenn die Warteschlangenlänge über einen längeren Zeitraum hinweg stetig ansteigt. Ein Wert von 10 oder sogar 20 wäre bei einer LUN mit 10-15 Festplatten überhaupt kein Problem, aber 350 bedeutet definitiv, dass etwas nicht stimmt. Ein fehlerhafter oder schlecht konfigurierter Cache könnte sicherlich solche Probleme verursachen, aber es könnte auch andere Gründe geben.

Wenn Sie jedoch wirklich wissen möchten, was los ist, müssen Sie sich die Leistungsüberwachung auf SAN-Ebene selbst ansehen und diese von Ihren SAN-Mitarbeitern erhalten. Das Problem kann an den Festplatten auf der LUN liegen (möglicherweise ist eine Festplatte ausgefallen und es wird gerade ein RAID-Neuaufbau durchgeführt, möglicherweise ist der Cache aus irgendeinem Grund deaktiviert, möglicherweise haben andere von denselben Festplatten abgetrennte LUNs eine höhere Priorität und sind ausgelastet), möglicherweise ist der Cache auf diesem bestimmten Array deaktiviert/ausgefallen, möglicherweise treten Probleme mit der SAN-Struktur oder den Switches auf.

Es gibt einen alten, aber sehr guten Artikel überDatenträgerzähler in Windows hier.

Antwort2

Wie lauten Ihre Leistungsmonitorwerte „Durchschnittliche Länge der Lesewarteschlange der Festplatte“ und „Durchschnittliche Länge der Schreibwarteschlange der Festplatte“ für diese LUNs und wie schneiden die einzelnen Server im Vergleich zu den anderen ab?

Wenn Sie mit Ihren SAN-Leuten eine ruhige Zeit aushandeln können, dann könnten SieIOZoneauf beiden Maschinen und vergleichen Sie die Ergebnisse.

Antwort3

Einige Zähler sind für Sie nützlich, andere nicht. Dinge wie die aktuelle Festplattenwarteschlange geben Aufschluss über die Warteschlange, die der Windows-Host zwischen dem Senden des Lese-/Schreibbefehls und der Verarbeitung dieses Befehls im Cache im SAN sieht. Wenn die Festplatten jedoch einwandfrei laufen, können Sie aufgrund von Cache-, Switch- oder Glasfaserproblemen immer noch Warteschlangen auf dem Host sehen.

Dinge wie Sekunden pro Lesen und Sekunden pro Schreiben funktionieren auf die gleiche Weise. Sie geben an, wie lange das Schreiben in den Cache gedauert hat.

Zahlen wie IO-Schreibvorgänge pro Sekunde sind etwas nützlicher. Auch hier handelt es sich um IO zum SAN-Cache, aber dieser IO muss irgendwann auf der Festplatte ankommen. Dasselbe gilt für IO-Lesevorgänge pro Sekunde. Dabei handelt es sich um Lesevorgänge von Festplatte und Cache, aber wenn es sich im Lese-Cache befindet, wurde es irgendwann von der Festplatte entfernt.

verwandte Informationen