Kubernetes와 kswapd0은 사악한 커플인가요?

Question 1

kswapd0의 이러한 동작은 의도적으로 설계된 것이며 설명이 가능합니다.

스왑 파일을 비활성화 및 제거하고 스왑성을 0으로 설정했지만 kswapd는 사용 가능한 메모리를 계속 감시합니다. 아무런 조치도 취하지 않고 거의 모든 메모리를 사용할 수 있습니다. 그러나 사용 가능한 메모리가 매우 낮은 값(테스트 서버의 4K 페이지 중 4,000개에 달하는 Normal 영역의 낮은 페이지)으로 떨어지자마자 /proc/zoneinfokswapd가 개입합니다. 이로 인해 CPU 사용률이 높아집니다.

다음 방법으로 문제를 재현하고 더 자세히 조사할 수 있습니다. Roman Evstifeev가 제공하는 스크립트와 같이 제어된 방식으로 메모리를 소비할 수 있는 도구가 필요합니다.ramhog.py

스크립트는 ASCII 코드 "Z"의 100MB 청크로 메모리를 채웁니다. 실험의 공정성을 위해 스크립트는 k8s가 관련되지 않도록 Pod가 아닌 Kubernetes 호스트에서 실행됩니다. 이 스크립트는 Python3에서 실행되어야 합니다. 다음과 같이 약간 수정되었습니다.

3.6 이전 Python 버전과 호환됩니다.
시스템 성능 저하가 결국 더 눈에 띄도록 메모리 할당 청크를 4000 메모리 페이지(/proc/zoneinfo의 Normal 영역에 대한 낮은 페이지, 10MB로 설정)보다 작게 설정하십시오.

from time import sleep

print('Press ctrl-c to exit; Press Enter to hog 10MB more')

one = b'Z' * 1024 * 1024  # 1MB hog = []

while True:
    hog.append(one * 10)  # allocate 10MB
    free = ';\t'.join(open('/proc/meminfo').read().split('\n')[1:3])
    print("{}\tPress Enter to hog 10MB more".format(free), end='')
    input()
    sleep(0.1)

무슨 일이 일어나고 있는지 확인하기 위해 테스트 시스템과 3개의 터미널 연결을 설정할 수 있습니다.

스크립트를 실행하십시오.
최상위 명령을 실행하십시오.
/proc/zoneinfo 가져오기

스크립트를 실행합니다:

$ python3 ramhog.py

Enter 키를 여러 번 입력한 후에(우리가 설정한 작은 메모리 할당 청크(10MB)로 인해 발생) 다음을 알 수 있습니다.

속도 MemAvailable가 점점 낮아지고 시스템의 응답성이 점점 낮아지고 있습니다.ramhog.py 출력

무료 페이지는 낮은 워터마크 아래로 떨어집니다.무료 페이지

결과적으로 kswapd와 k8s 프로세스가 깨어나고 CPU 사용률이 최대 100%까지 증가합니다.맨 위

스크립트는 k8s와 별도로 실행되며 SWAP이 비활성화되어 있습니다. 따라서 Kubernetes와 kswapd0은 모두 테스트 시작 시 유휴 상태였습니다. 실행 중인 포드는 건드리지 않았습니다. 하지만 시간이 지남에 따라 세 번째 응용 프로그램으로 인해 사용 가능한 메모리가 부족해지면 kswapd뿐만 아니라 k8s에서도 CPU 사용률이 높아집니다. 이는 근본 원인이 메모리 부족 때문이지 k8s나 kswapd 자체가 아니라는 뜻입니다.

/proc/meminfo귀하가 제공한 것에서 볼 수 있듯이 , MemAvailablekswapd가 깨어나도록 하는 원인이 상당히 낮아지고 있습니다. /proc/zoneinfo서버에서도 살펴보십시오 .

실제로 근본 원인은 k8s와 kswap0 사이의 충돌이나 비호환성에 있는 것이 아니라 비활성화된 스왑과 메모리 부족 사이의 모순으로 인해 kswapd 활성화가 발생하는 데 있습니다. 시스템을 재부팅하면 문제가 일시적으로 해결되지만 RAM을 추가하는 것이 좋습니다.

kswapd 동작에 대한 좋은 설명은 다음과 같습니다. kswapd는 CPU 사이클을 많이 사용하고 있습니다.

Answer