물리적 머신 HW로 구성된 클러스터가 있습니다.
각 머신에는 32개의 CPU가 포함되어 있습니다.
# lscpu
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Byte Order: Little Endian
CPU(s): 32
On-line CPU(s) list: 0-31
Thread(s) per core: 2
Core(s) per socket: 8
이제 가동 시간부터 5분까지의 로드 평균이 임계값에 도달할 때마다 경보를 보내려고 합니다.
로드 평균(가동 시간으로부터 5분) 값이 32(CPU 수)를 초과하면 걱정해야 한다는 것이 제가 이해한 바입니다.
나 맞아 ?
답변1
로드 평균은 주로 CPU 로드를 표시하지 않으며 작업 항목 대기열 길이에 대한 대략적인 값입니다. 실제 생활에서는 I/O 대기에 낭비되는 CPU 주기와 실제로 사용된 CPU 주기에 의해 훨씬 더 많은 영향을 받는 경우가 많습니다(물론 이는 작업 부하에 따라 다릅니다).
top
CPU가 시간을 어떻게 소비하는지에 대한 첫 번째 추정치를 결정하려면 도구를 살펴보십시오 . 경험상 (그리고오직따라서) 고려
- 높은
User
비율은 정상입니다. - 컴퓨터가 잘 사용 중입니다. - 높은
Sys
비율은 그다지 효율적이지 않은 애플리케이션(또는 최적화되지 않은 OS/드라이버 조합을 실행하는 VM 게스트)을 가리킬 수 있습니다. - 시간이 많이 걸린다
Wait
는 것은 I/O(대개 스토리지)가 따라잡을 수 없다는 것을 의미합니다. 이는 다시 애플리케이션 내부의 최적화가 필요함을 의미하거나 스토리지 하드웨어에 너무 많은 것을 요구할 수 있음을 의미할 수 있습니다. (꼭 살펴봐야 할 주요 사항: 대기 시간에 민감한 작업 부하에 회전 디스크를 사용하고 있습니까? 소규모 쓰기에 RAID5를 사용하고 있습니까?)