Wir haben einen Cluster mit physischen Maschinen HW
Jede Maschine enthält 32 CPU
# lscpu
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Byte Order: Little Endian
CPU(s): 32
On-line CPU(s) list: 0-31
Thread(s) per core: 2
Core(s) per socket: 8
Jetzt möchten wir jedes Mal einen Alarm senden, wenn die durchschnittliche Auslastung von der Betriebszeit bis 5 Minuten vor der Betriebszeit den Schwellenwert erreicht.
Meines Wissens besteht Grund zur Sorge, wenn die durchschnittliche Auslastung (5 Minuten nach Betriebsbeginn) über 32 (Anzahl der CPUs) liegt.
Hab ich recht ?
Antwort1
Die durchschnittliche Auslastung zeigt nicht in erster Linie die CPU-Auslastung an, sondern ist eine Annäherung an die Länge der Arbeitselementwarteschlange. In der Praxis wird diese häufig viel stärker von den durch I/O-Wartezeiten verschwendeten CPU-Zyklen beeinflusst als von den tatsächlich genutzten CPU-Zyklen (dies hängt natürlich von der Arbeitslast ab).
Werfen Sie einen Blick auf das top
Tool, um eine erste Schätzung darüber zu erhalten, wie Ihre CPUs ihre Zeit verbringen. Als Faustregel (undnurals solche) betrachten
- Hohe
User
Prozentsätze sind gesund – Ihre Maschine ist in gutem Zustand - Hohe
Sys
Prozentsätze können auf eine nicht sehr effiziente Anwendung hinweisen (oder auf VM-Gäste, die eine nicht optimierte Betriebssystem-/Treiberkombination ausführen). - Hohe
Wait
Zeiten bedeuten, dass Ihre E/A (höchstwahrscheinlich der Speicher) nicht mithalten kann. Dies kann wiederum darauf hinweisen, dass Ihre Anwendung optimiert werden muss oder dass Ihre Speicherhardware einfach zu viel verlangt ist (Wichtigste Punkte, die Sie prüfen sollten: Werden rotierende Festplatten für latenzempfindliche Workloads verwendet? Verwenden Sie RAID5 für kleine Schreibvorgänge?)