Kubernetes e kswapd0 são um casal malvado?

Question 1

Esse comportamento do kswapd0 é intencional e é explicável.

Embora você tenha desabilitado e removido o arquivo de troca e definido a troca como zero, o kswapd está de olho na memória disponível. Ele permite que você consuma quase toda a memória sem realizar nenhuma ação. Mas assim que a memória disponível cai para um valor criticamente baixo (páginas baixas para a zona Normal em /proc/zoneinfocerca de 4.000 páginas de 4K em meu servidor de teste), o kswapd entra em ação.

Você pode reproduzir o problema e investigá-lo mais profundamente da seguinte maneira. Você precisará de uma ferramenta que permita consumir memória de forma controlada, como um script, oferecido por Roman Evstifeev:ramhog.py

O script preenche a memória com pedaços de 100 MB do código ASCII de “Z”. Para a justiça do experimento, o script é lançado no host Kubernetes, não no pod, para que os k8s não sejam envolvidos. Este script deve ser executado em Python3. Ele é um pouco modificado para:

ser compatível com versões do Python anteriores à 3.6;
defina o bloco de alocação de memória menor que 4.000 páginas de memória (páginas baixas para a zona Normal em /proc/zoneinfo; defino 10 MB) para que a degradação do desempenho do sistema seja mais visível no final.

from time import sleep

print('Press ctrl-c to exit; Press Enter to hog 10MB more')

one = b'Z' * 1024 * 1024  # 1MB hog = []

while True:
    hog.append(one * 10)  # allocate 10MB
    free = ';\t'.join(open('/proc/meminfo').read().split('\n')[1:3])
    print("{}\tPress Enter to hog 10MB more".format(free), end='')
    input()
    sleep(0.1)

Você pode estabelecer três conexões de terminal com o sistema de teste para observar o que está acontecendo:

execute o script;
execute o comando superior;
busque o /proc/zoneinfo

Execute o script:

$ python3 ramhog.py

Depois de algumas digitações na tecla Enter (causadas pelo pequeno pedaço de alocação de memória que definimos (10 MB)), você notará que

o MemAvailableestá ficando baixo e seu sistema está se tornando cada vez menos responsivo:Saída ramhog.py

As páginas gratuitas ficarão abaixo da marca d’água baixa:páginas gratuitas

Consequentemente, o kswapd será ativado, assim como os processos k8s, e a utilização da CPU aumentará em até 100%:principal

Observe que o script está sendo executado separadamente do k8s e o SWAP está desabilitado. Conseqüentemente, tanto o Kubernetes quanto o kswapd0 estavam inativos no início do teste. Os pods em execução não foram tocados. Mesmo assim, com o tempo, a falta de memória disponível causada pelo terceiro aplicativo causa alta utilização da CPU: não apenas pelo kswapd, mas também pelo k8s. Isso significa que a causa raiz é a memória insuficiente, mas não o próprio k8s ou kswapd.

Como você pode ver pelo que /proc/meminfovocê forneceu, MemAvailableestá ficando muito baixo, fazendo com que o kswapd seja ativado. Por favor, verifique /proc/zoneinfotambém o seu servidor.

Na verdade, a causa raiz não está no conflito ou incompatibilidade entre k8s e kswap0, mas na contradição entre a troca desabilitada e a falta de memória que por sua vez causa a ativação do kswapd. A reinicialização do sistema resolverá temporariamente o problema, mas adicionar mais RAM é realmente recomendado.

Uma boa explicação do comportamento do kswapd está aqui: kswapd está usando muitos ciclos de CPU

Answer

Esse comportamento do kswapd0 é intencional e é explicável.

Embora você tenha desabilitado e removido o arquivo de troca e definido a troca como zero, o kswapd está de olho na memória disponível. Ele permite que você consuma quase toda a memória sem realizar nenhuma ação. Mas assim que a memória disponível cai para um valor criticamente baixo (páginas baixas para a zona Normal em /proc/zoneinfocerca de 4.000 páginas de 4K em meu servidor de teste), o kswapd entra em ação.

Você pode reproduzir o problema e investigá-lo mais profundamente da seguinte maneira. Você precisará de uma ferramenta que permita consumir memória de forma controlada, como um script, oferecido por Roman Evstifeev:ramhog.py

O script preenche a memória com pedaços de 100 MB do código ASCII de “Z”. Para a justiça do experimento, o script é lançado no host Kubernetes, não no pod, para que os k8s não sejam envolvidos. Este script deve ser executado em Python3. Ele é um pouco modificado para:

ser compatível com versões do Python anteriores à 3.6;
defina o bloco de alocação de memória menor que 4.000 páginas de memória (páginas baixas para a zona Normal em /proc/zoneinfo; defino 10 MB) para que a degradação do desempenho do sistema seja mais visível no final.

from time import sleep

print('Press ctrl-c to exit; Press Enter to hog 10MB more')

one = b'Z' * 1024 * 1024  # 1MB hog = []

while True:
    hog.append(one * 10)  # allocate 10MB
    free = ';\t'.join(open('/proc/meminfo').read().split('\n')[1:3])
    print("{}\tPress Enter to hog 10MB more".format(free), end='')
    input()
    sleep(0.1)

Você pode estabelecer três conexões de terminal com o sistema de teste para observar o que está acontecendo:

execute o script;
execute o comando superior;
busque o /proc/zoneinfo

Execute o script:

$ python3 ramhog.py

Depois de algumas digitações na tecla Enter (causadas pelo pequeno pedaço de alocação de memória que definimos (10 MB)), você notará que

o MemAvailableestá ficando baixo e seu sistema está se tornando cada vez menos responsivo:Saída ramhog.py

As páginas gratuitas ficarão abaixo da marca d’água baixa:páginas gratuitas

Consequentemente, o kswapd será ativado, assim como os processos k8s, e a utilização da CPU aumentará em até 100%:principal

Observe que o script está sendo executado separadamente do k8s e o SWAP está desabilitado. Conseqüentemente, tanto o Kubernetes quanto o kswapd0 estavam inativos no início do teste. Os pods em execução não foram tocados. Mesmo assim, com o tempo, a falta de memória disponível causada pelo terceiro aplicativo causa alta utilização da CPU: não apenas pelo kswapd, mas também pelo k8s. Isso significa que a causa raiz é a memória insuficiente, mas não o próprio k8s ou kswapd.

Como você pode ver pelo que /proc/meminfovocê forneceu, MemAvailableestá ficando muito baixo, fazendo com que o kswapd seja ativado. Por favor, verifique /proc/zoneinfotambém o seu servidor.

Na verdade, a causa raiz não está no conflito ou incompatibilidade entre k8s e kswap0, mas na contradição entre a troca desabilitada e a falta de memória que por sua vez causa a ativação do kswapd. A reinicialização do sistema resolverá temporariamente o problema, mas adicionar mais RAM é realmente recomendado.

Uma boa explicação do comportamento do kswapd está aqui: kswapd está usando muitos ciclos de CPU

Question 2

Kubernetes nos permite definir quanta RAM devemos manter para o sistema Linux usando o evictionHard.memory.availableparâmetro. Este parâmetro é definido em um ConfigMap chamado kubelet-config-1.XX. Se a RAM exceder o nível permitido pela configuração, o Kubernertes começa a eliminar os pods para reduzir seu uso.

No meu caso o evictionHard.memory.availableparâmetro foi definido muito baixo (100Mi). Portanto, não há espaço de RAM suficiente para o sistema Linux, então kswapd0 começa a bagunçar quando o uso de RAM é muito alto.

Após alguns testes, para evitar o aumento do kswapd0, configurei evictionHard.memory.availablepara 800Mi. O processo kswapd0 não atrapalhou mais.

Answer

Kubernetes nos permite definir quanta RAM devemos manter para o sistema Linux usando o evictionHard.memory.availableparâmetro. Este parâmetro é definido em um ConfigMap chamado kubelet-config-1.XX. Se a RAM exceder o nível permitido pela configuração, o Kubernertes começa a eliminar os pods para reduzir seu uso.

No meu caso o evictionHard.memory.availableparâmetro foi definido muito baixo (100Mi). Portanto, não há espaço de RAM suficiente para o sistema Linux, então kswapd0 começa a bagunçar quando o uso de RAM é muito alto.

Após alguns testes, para evitar o aumento do kswapd0, configurei evictionHard.memory.availablepara 800Mi. O processo kswapd0 não atrapalhou mais.

Kubernetes e kswapd0 são um casal malvado?

Responder1

Responder2

informação relacionada