우분투 14.04.1 서버 유휴 로드 평균 1.00

우분투 14.04.1 서버 유휴 로드 평균 1.00

여기서 머리를 긁적입니다. 누군가가 문제 해결에 도움을 줄 수 있기를 바랍니다.

한동안 이전 버전의 우분투에서 실행되었던 Dell PowerEdge SC1435 서버가 있습니다. (13.10 서버 x64였던 것 같아요)

최근에 드라이브(SSD)를 다시 포맷하고 우분투 서버 14.04.1 x64를 설치했습니다.

설치 과정에서는 모든 것이 괜찮아 보였지만 화면이 지워지고 로그온 프롬프트가 나타날 것으로 예상하기 직전에 커널 출력이 끝날 때 처음 부팅할 때 시스템이 중단되었습니다. 내가 본 커널 출력 끝에는 명백한 오류가 없었습니다. ("신뢰할 수 없는 CPU 열 센서를 사용하지 마십시오"라는 메시지가 있었지만 부팅 여부와 관계없이 나타나는 것으로 보입니다)

5분 정도 기다렸다가 강제로 재부팅했습니다. 놀랍게도 BIOS 게시 후 약 1-2초 만에 로그온 프롬프트로 부팅되었습니다. 다시 재부팅했더니 아까 멈췄던 부분에서 몇초 더 멈춘듯 하다가 로그인 화면으로 넘어갔습니다. 다시 재부팅하면 다시 빨라졌습니다. 그래서 이 시점에서 나는 결코 설명하지 않을 무작위 일회성 결함 중 하나라고 생각하여 계속 진행했습니다.

몇 가지 패키지(다른 하드웨어의 동일한 OS 버전에 설치된 동일한 패키지)를 설치하고 적절한 업그레이드 및 dist-upgrade를 수행한 다음 재부팅했습니다. 다시 멈추는 것 같아서 데이터 센터로 가서 콘솔을 연결했지만 빈 화면이 나타났습니다. 다시 강제 재부팅합니다. (또한 원격 재부팅을 위해 ipmi를 설정하고 grub Recordfail을 제거하여 Enter 키를 누를 때까지 기다리지 않도록 했습니다!)

어젯밤에는 아주 늦은 밤이었습니다. 집에 돌아와서 문제 없이 몇 번 재부팅한 후 잠자리에 들었습니다. 오늘 확인하기 위해 다시 재부팅했는데 어딘가에서 다시 충돌이 발생했습니다. 원격으로 강제 재부팅했습니다.

이 시점에서 나는 조금 더 파헤치기 시작했고 즉시 정말 이상한 점을 발견했습니다.

top - 14:18:35 up 8 min,  1 user,  load average: 1.00, 0.85, 0.45
Tasks: 148 total,   1 running, 147 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0.1 us,  0.3 sy,  0.0 ni, 99.6 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem:  33013620 total,   338928 used, 32674692 free,     9740 buffers
KiB Swap:  3906556 total,        0 used,  3906556 free.    47780 cached Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
    1 root      20   0   33508   2772   1404 S   0.0  0.0   0:03.82 init
    2 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kthreadd
    3 root      20   0       0      0      0 S   0.0  0.0   0:00.00 ksoftirqd/0
    5 root       0 -20       0      0      0 S   0.0  0.0   0:00.00 kworker/0:0H
    6 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kworker/u16:0
    8 root      20   0       0      0      0 S   0.0  0.0   0:00.24 rcu_sched
    9 root      20   0       0      0      0 S   0.0  0.0   0:00.02 rcuos/0
   10 root      20   0       0      0      0 S   0.0  0.0   0:00.00 rcuos/1
   11 root      20   0       0      0      0 S   0.0  0.0   0:00.00 rcuos/2

이 서버는 전혀 사용되지 않고 유휴 상태이지만 1분 로드 평균이 정확히 1.00인가요? 다른 값을 살펴보면 5분과 15분도 1.00을 향하고 있는 것으로 나타나 어느 시점에는 모두 1.00에 도달할 것이라고 가정합니다. ("1 Running"이 최상위 프로세스입니다)

나는 이전에 이런 일을 겪은 적이 없으며 스타트업 충돌의 원인이 무엇인지 전혀 모르기 때문에 이 시점에서 두 가지가 관련이 있을 것으로 가정하고 있습니다.

제가 하고 싶은 것은 잘못된 로드 평균과 충돌 문제의 원인을 식별하고 제거하는 것입니다.

지금까지 나는 해당 로드 평균을 생성하기 위해 어떤 종류의 리소스를 기다리고 있는 프로세스를 식별할 수 없었습니다.

누군가 내가 그것을 추적하고 추적하는 데 도움을 줄 수 있다면 매우 감사하겠습니다.

top은 모든 프로세스가 거의 항상 잠자고 있음을 보여줍니다. 일부는 가끔 상단에 표시되지만 이는 매우 정상이라고 생각합니다. CPU 사용량은 대부분 100% 유휴 상태를 나타내며 아주 가끔씩 99% 정도까지 떨어지기도 합니다.

nmon은 나에게 많은 것을 보여주지 않습니다. 모든 것이 유휴 상태로 보입니다.

iotop에는 트래픽이 전혀 표시되지 않습니다. (다시 말하지만, 디스크 액세스가 매우 가끔 발생하는 지점)

인터럽트 빈도가 낮은 것 같습니다. 내가 볼 수 있는 것보다 100/초보다 훨씬 낮습니다.

나는 이것을 제안하는 수많은 Google 토론을 보았습니다.

echo 100 > /sys/module/ipmi_si/parameters/kipmid_max_busy_us

..효과 없음.

서버의 RAM은 ECC이며 테스트를 통과했습니다.

설치 중에 OpenSSH 서버가 선택된 상태에서 서버 설치는 '최소'(F4 ​​옵션)였습니다. 나중에 vim, bcache-tools, bridge-utils, qemu, Software-properties-common, open-iscsi, qemu-kvm, cpu-checker, socat, ntp 및 nodejs를 포함한 몇 가지 패키지를 설치했습니다. (그게 다라고 생각해)

bcache 커널 모듈을 비활성화하고 제거해 보았습니다. 효과가 없습니다. iscsi 서비스가 중지되었습니다.. 효과가 없습니다. (아직 이 서버에는 아무것도 구성되지 않았지만)

이게 엄청나게 길어지기 전에 거기에 남겨두겠습니다. 누군가 내가 이것을 알아내도록 도와줄 수 있다면 정말 감사하겠습니다.

건배,

제임스

관련 정보