시스템 장애 예측

Question 1

주기적으로 자체 테스트를 수행하고 '사전 오류' 경고를 보고하는 서버와 구성 요소를 직접 구입하세요. 최고의 업체(HP, IBM, Dell)와 저가 업체 간의 차이를 실제로 결정하는 것은 서버가 이를 수행하는 능력입니다. 물론 비용이 더 많이 들지만 일부에게는 그만한 가치가 있습니다.

예를 들어 HP DL380 Gen9 서버에는 장치와 해당 구성 요소 주변에 문자 그대로 수백 개의 센서가 있어 가능한 경우 이러한 '사전 오류' 경고를 제공합니다. 이것은 실제로 일상적으로 작동하며 지원 계약은 저렴하지 않지만 이 정보를 기반으로 하드웨어를 교체할 수 있도록 허용합니다. 디스크/컨트롤러/메모리/CPU/PSU 등을 교체할 수 있습니다.전에실패가 당신에게 영향을 미칩니다.

요약하자면, 가용성이 핵심이라면 이를 수행할 수 있는 서버를 구입하고 발생 시 이 정보를 보고하도록 구성하십시오.

Answer

주기적으로 자체 테스트를 수행하고 '사전 오류' 경고를 보고하는 서버와 구성 요소를 직접 구입하세요. 최고의 업체(HP, IBM, Dell)와 저가 업체 간의 차이를 실제로 결정하는 것은 서버가 이를 수행하는 능력입니다. 물론 비용이 더 많이 들지만 일부에게는 그만한 가치가 있습니다.

예를 들어 HP DL380 Gen9 서버에는 장치와 해당 구성 요소 주변에 문자 그대로 수백 개의 센서가 있어 가능한 경우 이러한 '사전 오류' 경고를 제공합니다. 이것은 실제로 일상적으로 작동하며 지원 계약은 저렴하지 않지만 이 정보를 기반으로 하드웨어를 교체할 수 있도록 허용합니다. 디스크/컨트롤러/메모리/CPU/PSU 등을 교체할 수 있습니다.전에실패가 당신에게 영향을 미칩니다.

요약하자면, 가용성이 핵심이라면 이를 수행할 수 있는 서버를 구입하고 발생 시 이 정보를 보고하도록 구성하십시오.

Question 2

아니요, 최소한 일반적인 방식은 아닙니다. 다양한 시스템은 확인할 수 있는 모든 측면에서 매우 다르기 때문입니다. 예를 들어, 내 웹 서버에서는 매우 짧은 시간 이상 100% CPU에 도달하면 걱정할 수 있지만 컴퓨팅 노드에서는 100% CPU 사용량이 없는 것이 우려할 수 있습니다.

일부 모니터링 시스템(예: Nagios/Icinga)을 설치하고 특정 사용 사례에 적합한 임계값 매개변수를 찾아내려고 시도할 수 있지만 확인해야 할 매개변수와 특정 사용 사례에 대해 설정할 임계값에 대해 오랫동안 열심히 생각해야 합니다. 상황.

Answer

아니요, 최소한 일반적인 방식은 아닙니다. 다양한 시스템은 확인할 수 있는 모든 측면에서 매우 다르기 때문입니다. 예를 들어, 내 웹 서버에서는 매우 짧은 시간 이상 100% CPU에 도달하면 걱정할 수 있지만 컴퓨팅 노드에서는 100% CPU 사용량이 없는 것이 우려할 수 있습니다.

일부 모니터링 시스템(예: Nagios/Icinga)을 설치하고 특정 사용 사례에 적합한 임계값 매개변수를 찾아내려고 시도할 수 있지만 확인해야 할 매개변수와 특정 사용 사례에 대해 설정할 임계값에 대해 오랫동안 열심히 생각해야 합니다. 상황.

시스템 장애 예측

답변1

답변2

관련 정보