Wie kann ich in Solaris SunOS 5.10 auf gestohlene Zeitdaten zugreifen?

Question

Ihr eigentliches Problem scheinen hier die Leistungseinbußen zu sein. Und Steal-Time ist auf einem Solaris 10 T1000/T2000-Server wahrscheinlich bedeutungslos.

Um herauszufinden, ob Sie in einer Zone arbeiten, verwenden Sie den /usr/bin/zonenameBefehl (der Speicherort kann bei verschiedenen Solaris-Versionen unterschiedlich sein – überprüfen Sie auch /bin, /sbin/, und /usr/sbin.) Wenn zonenameetwas anderes als zurückgegeben wird global, arbeiten Sie in einer Zone.

Wenn Sie aus irgendeinem Grund keinen Zugriff auf den Befehl haben zonename, können Sie mit mehreren psBefehlen feststellen, ob Sie sich in einer Zone befinden. Suchen Sie zunächst nach init:

ps -ef | grep init

Wenn dadurch kein initProzess mit der PID gefunden wird 1, befinden Sie sich in einer Zone. Sie können auch nach Folgendem suchen zsched(IIRC):

ps -ef | grep zsched

Wenn dies einen Prozess zurückgibt, der sein eigener übergeordneter Prozess ist (sowohl PID als auch PPID sind gleich und größer als 1), dann arbeiten Sie in einer Zone.

Wenn Sie sich in einer Zone befinden, stoßen Sie möglicherweise auf Ressourcenbeschränkungen, die Sie verlangsamen. Dies ist jedoch wahrscheinlich nicht der Fall.

Wasandersläuft aber auf dem Server? Einschließlich anderer Zonen. Ich habe wirklich schlimme Leistungsprobleme auf Sun T-Serie-Servern gesehen, die denen ähneln, die Sie beschreiben. Sie wurden durch Interaktionen zwischen dem ZFS ARC und Anwendungen verursacht, die riesige Speicherseiten verwenden – wie etwa eine Oracle-Datenbank.

Der ZFS ARC verwendet 4k Speicherseiten, fragmentiert also den Speicher - und fragmentiertALLEder Speicher auf Ihrem Server. Wenn Ihr Server in diesen Zustand gerät und ein Prozess eine erhebliche Menge an großen Speicherseiten benötigt, muss der Kernel eine Reihe kleiner Seiten zu großen zusammenfassen, was das Verschieben einer Menge Speicher erfordert. Und das alles wird einfädig erledigt. Und jeder einzelne Thread auf einem frühen T-Serien-Server istLANGSAMda die Server für die Verarbeitung einer großen Anzahl von Threads mit großen Latenzen ausgelegt sind – wie beispielsweise ein Webserver oder Datenbankserver, der viele Verbindungen über ein Netzwerk verarbeitet.

Daher führt der Kernel längere Zeiträume durch, in denen er praktisch nichts anderes tut, als kleine Speicherseiten zu großen Seiten zusammenzufassen.

Anschließend erhält ZFS ARC die Seiten zurück, nachdem der Prozess mit großen Seitenmengen abgeschlossen ist und sie fragmentiert werden.

Ich vermute, dass Sie möglicherweise genau dasselbe Problem haben.

Um das herauszufinden, führen Sie

echo ::memstat | mdb -k

als Root in der globalen Zone, wenn Sie Zonen ausführen. Wenn Ihr freier Speicher sehr gering ist, liegt dieses Problem möglicherweise bei Ihnen vor.

Um dies herauszufinden, führen Sie das folgende dTrace-Skript erneut als Root aus der globalen Zone aus, um zu ermitteln, wo der Kernel seine gesamte Zeit verbringt:

#!/usr/sbin/dtrace -s

profile:::profile-1001hz
/arg0/
{
    @[ stack() ] = count();
}

Kopieren Sie es beispielsweise in eine Datei, hot.dmachen Sie es ausführbar ( chmod 755 hot.d) und führen Sie es als Root aus der globalen Zone aus:

./hot.d

Führen Sie es aus, wenn Sie Verlangsamungen feststellen. Lassen Sie es für gute 10-20 Sekunden laufen, wenn nicht länger, nachdem es ausgegeben wurde matched 1 probe, und unterbrechen Sie es dann mit CTRL-C. Es wird dann einvielvon Ausgaben, von denen Sie die meisten nicht interessieren. Die letzten paar Stacktraces-Ausgaben werden jedoch die am häufigsten abgetasteten sein und Ihnen sagen, womit der Kernel seine ganze Zeit verbringt.

Damit wissen Sie definitiv, wo Ihr Problem liegt. Es ist vielleicht nicht präzise genug, um es vollständig zu lösen, und Sie müssen möglicherweise weitere Untersuchungen durchführen, aber Sie wissen, wo Sie suchen müssen.

Wenn Sie viele Stacktraces mit idleoder waitdarin sehen, liegt ein Benutzerbereichsproblem vor. Sie können dies möglicherweise feststellen, indem Sie stack()im obigen dTrace-Skript durch ersetzen ustack(), um den Benutzer-Stack abzurufen.

Und wenn Sie viele Stacktraces coalescein den Funktionsnamen sehen, verbringt der Kernel seine ganze Zeit damit, große Speicherseiten zu erstellen. Die Lösung hierfür besteht darin, Speicher freizugeben, höchstwahrscheinlich durch die Begrenzung der ZFS ARC-Größe, möglicherweise sogar stark. Ich mussteKniescheibedas ZFS ARC auf einigen Servern auf unter 1 GB, um Leistungseinbußen vorzubeugen.

Answer 1

Ihr eigentliches Problem scheinen hier die Leistungseinbußen zu sein. Und Steal-Time ist auf einem Solaris 10 T1000/T2000-Server wahrscheinlich bedeutungslos.

Um herauszufinden, ob Sie in einer Zone arbeiten, verwenden Sie den /usr/bin/zonenameBefehl (der Speicherort kann bei verschiedenen Solaris-Versionen unterschiedlich sein – überprüfen Sie auch /bin, /sbin/, und /usr/sbin.) Wenn zonenameetwas anderes als zurückgegeben wird global, arbeiten Sie in einer Zone.

Wenn Sie aus irgendeinem Grund keinen Zugriff auf den Befehl haben zonename, können Sie mit mehreren psBefehlen feststellen, ob Sie sich in einer Zone befinden. Suchen Sie zunächst nach init:

ps -ef | grep init

Wenn dadurch kein initProzess mit der PID gefunden wird 1, befinden Sie sich in einer Zone. Sie können auch nach Folgendem suchen zsched(IIRC):

ps -ef | grep zsched

Wenn dies einen Prozess zurückgibt, der sein eigener übergeordneter Prozess ist (sowohl PID als auch PPID sind gleich und größer als 1), dann arbeiten Sie in einer Zone.

Wenn Sie sich in einer Zone befinden, stoßen Sie möglicherweise auf Ressourcenbeschränkungen, die Sie verlangsamen. Dies ist jedoch wahrscheinlich nicht der Fall.

Wasandersläuft aber auf dem Server? Einschließlich anderer Zonen. Ich habe wirklich schlimme Leistungsprobleme auf Sun T-Serie-Servern gesehen, die denen ähneln, die Sie beschreiben. Sie wurden durch Interaktionen zwischen dem ZFS ARC und Anwendungen verursacht, die riesige Speicherseiten verwenden – wie etwa eine Oracle-Datenbank.

Der ZFS ARC verwendet 4k Speicherseiten, fragmentiert also den Speicher - und fragmentiertALLEder Speicher auf Ihrem Server. Wenn Ihr Server in diesen Zustand gerät und ein Prozess eine erhebliche Menge an großen Speicherseiten benötigt, muss der Kernel eine Reihe kleiner Seiten zu großen zusammenfassen, was das Verschieben einer Menge Speicher erfordert. Und das alles wird einfädig erledigt. Und jeder einzelne Thread auf einem frühen T-Serien-Server istLANGSAMda die Server für die Verarbeitung einer großen Anzahl von Threads mit großen Latenzen ausgelegt sind – wie beispielsweise ein Webserver oder Datenbankserver, der viele Verbindungen über ein Netzwerk verarbeitet.

Daher führt der Kernel längere Zeiträume durch, in denen er praktisch nichts anderes tut, als kleine Speicherseiten zu großen Seiten zusammenzufassen.

Anschließend erhält ZFS ARC die Seiten zurück, nachdem der Prozess mit großen Seitenmengen abgeschlossen ist und sie fragmentiert werden.

Ich vermute, dass Sie möglicherweise genau dasselbe Problem haben.

Um das herauszufinden, führen Sie

echo ::memstat | mdb -k

als Root in der globalen Zone, wenn Sie Zonen ausführen. Wenn Ihr freier Speicher sehr gering ist, liegt dieses Problem möglicherweise bei Ihnen vor.

Um dies herauszufinden, führen Sie das folgende dTrace-Skript erneut als Root aus der globalen Zone aus, um zu ermitteln, wo der Kernel seine gesamte Zeit verbringt:

#!/usr/sbin/dtrace -s

profile:::profile-1001hz
/arg0/
{
    @[ stack() ] = count();
}

Kopieren Sie es beispielsweise in eine Datei, hot.dmachen Sie es ausführbar ( chmod 755 hot.d) und führen Sie es als Root aus der globalen Zone aus:

./hot.d

Führen Sie es aus, wenn Sie Verlangsamungen feststellen. Lassen Sie es für gute 10-20 Sekunden laufen, wenn nicht länger, nachdem es ausgegeben wurde matched 1 probe, und unterbrechen Sie es dann mit CTRL-C. Es wird dann einvielvon Ausgaben, von denen Sie die meisten nicht interessieren. Die letzten paar Stacktraces-Ausgaben werden jedoch die am häufigsten abgetasteten sein und Ihnen sagen, womit der Kernel seine ganze Zeit verbringt.

Damit wissen Sie definitiv, wo Ihr Problem liegt. Es ist vielleicht nicht präzise genug, um es vollständig zu lösen, und Sie müssen möglicherweise weitere Untersuchungen durchführen, aber Sie wissen, wo Sie suchen müssen.

Wenn Sie viele Stacktraces mit idleoder waitdarin sehen, liegt ein Benutzerbereichsproblem vor. Sie können dies möglicherweise feststellen, indem Sie stack()im obigen dTrace-Skript durch ersetzen ustack(), um den Benutzer-Stack abzurufen.

Und wenn Sie viele Stacktraces coalescein den Funktionsnamen sehen, verbringt der Kernel seine ganze Zeit damit, große Speicherseiten zu erstellen. Die Lösung hierfür besteht darin, Speicher freizugeben, höchstwahrscheinlich durch die Begrenzung der ZFS ARC-Größe, möglicherweise sogar stark. Ich mussteKniescheibedas ZFS ARC auf einigen Servern auf unter 1 GB, um Leistungseinbußen vorzubeugen.

Wie kann ich in Solaris SunOS 5.10 auf gestohlene Zeitdaten zugreifen?

Antwort1

verwandte Informationen