시스템 장애 예측

시스템 장애 예측

CPU 사용량, 메모리 사용량 등 시스템 매개변수를 측정하여 서버 장애를 예측할 수 있는 방법이 있습니까?

실패의 원인은 다양할 수 있습니다.

내 질문의 표현이 잘못되었습니다. 따라서 이 편집은

편집하다

수집된 데이터(시스템 매개변수)로부터 일종의 기계 학습을 사용하여 서버가 다운될지 예측할 수 있습니까?

우리는 서버가 활성화되었을 때와 실패했을 때의 서버 상태를 기록합니다.

답변1

주기적으로 자체 테스트를 수행하고 '사전 오류' 경고를 보고하는 서버와 구성 요소를 직접 구입하세요. 최고의 업체(HP, IBM, Dell)와 저가 업체 간의 차이를 실제로 결정하는 것은 서버가 이를 수행하는 능력입니다. 물론 비용이 더 많이 들지만 일부에게는 그만한 가치가 있습니다.

예를 들어 HP DL380 Gen9 서버에는 장치와 해당 구성 요소 주변에 문자 그대로 수백 개의 센서가 있어 가능한 경우 이러한 '사전 오류' 경고를 제공합니다. 이것은 실제로 일상적으로 작동하며 지원 계약은 저렴하지 않지만 이 정보를 기반으로 하드웨어를 교체할 수 있도록 허용합니다. 디스크/컨트롤러/메모리/CPU/PSU 등을 교체할 수 있습니다.전에실패가 당신에게 영향을 미칩니다.

요약하자면, 가용성이 핵심이라면 이를 수행할 수 있는 서버를 구입하고 발생 시 이 정보를 보고하도록 구성하십시오.

답변2

아니요, 최소한 일반적인 방식은 아닙니다. 다양한 시스템은 확인할 수 있는 모든 측면에서 매우 다르기 때문입니다. 예를 들어, 내 웹 서버에서는 매우 짧은 시간 이상 100% CPU에 도달하면 걱정할 수 있지만 컴퓨팅 노드에서는 100% CPU 사용량이 없는 것이 우려할 수 있습니다.

일부 모니터링 시스템(예: Nagios/Icinga)을 설치하고 특정 사용 사례에 적합한 임계값 매개변수를 찾아내려고 시도할 수 있지만 확인해야 할 매개변수와 특정 사용 사례에 대해 설정할 임계값에 대해 오랫동안 열심히 생각해야 합니다. 상황.

관련 정보