O que pode causar o erro out_of_memory do kernel?

Question 1

Verifique as mensagens de log para obter indicações do eliminador de falta de memória do kernel ou OOM killedna saída do arquivo dmesg. Isso pode dar alguma indicação de quais processos foram alvo do assassino OOM. Dê uma olhada também no seguinte:

http://lwn.net/Articles/317814/

e

http://linux-mm.org/OOM_Killer

O que esse sistema faz? Você está cansando a troca ao mesmo tempo? Parece que o problema é o rsyslogd, com base no seu link externo detalhando a falha. Esta pode ser uma situação em que uma reinicialização periódica do aplicativo seria útil.

Answer

Verifique as mensagens de log para obter indicações do eliminador de falta de memória do kernel ou OOM killedna saída do arquivo dmesg. Isso pode dar alguma indicação de quais processos foram alvo do assassino OOM. Dê uma olhada também no seguinte:

http://lwn.net/Articles/317814/

e

http://linux-mm.org/OOM_Killer

O que esse sistema faz? Você está cansando a troca ao mesmo tempo? Parece que o problema é o rsyslogd, com base no seu link externo detalhando a falha. Esta pode ser uma situação em que uma reinicialização periódica do aplicativo seria útil.

Question 2

2.6.18 é um kernel muito antigo. Eu me deparei com problemas onde certas condições podem desencadear loops infinitos no kernel, resultando em qualquer coisa, desde exaustão de memória até largura de banda de E/S sendo totalmente usada para liberar os mesmos dados para o disco em um loop infinito (o que causa picos de carga, mas a CPU normal usar.)

Esses bugs tendem a ser corrigidos logo após serem relatados, então uma atualização do kernel é uma solução fácil para isso - além disso, atualizar o kernel significa que você receberá algumas correções de segurança gratuitamente :-)

Answer

2.6.18 é um kernel muito antigo. Eu me deparei com problemas onde certas condições podem desencadear loops infinitos no kernel, resultando em qualquer coisa, desde exaustão de memória até largura de banda de E/S sendo totalmente usada para liberar os mesmos dados para o disco em um loop infinito (o que causa picos de carga, mas a CPU normal usar.)

Esses bugs tendem a ser corrigidos logo após serem relatados, então uma atualização do kernel é uma solução fácil para isso - além disso, atualizar o kernel significa que você receberá algumas correções de segurança gratuitamente :-)

Question 3

Por outro lado, não se esqueça de que Cacti e similares são gráficos em uma determinada resolução (collectd é 5s por padrão, cacti acredito que 30s por padrão), então você tem um período de 30 a 60 segundos que não necessariamente aparece no seu gráficos ... se o sistema estiver totalmente paralisado, isso também afetará o daemon de coleta de dados.

Você pode encontrar informações úteis adicionais em seus arquivos de log, sejam eles /var/log/messages gerais ou /var/log/apache2/error.log específicos do serviço.

Se não puder, recomendo que você revise seus serviços (observei o apache2 na extração de log acima) e verifique se eles são capazes de causar uma situação de esgotamento de memória em seu servidor. (ex.: configuração padrão do apache, com mod_prefork e php deve ser capaz de parar seu sistema).

Answer

Por outro lado, não se esqueça de que Cacti e similares são gráficos em uma determinada resolução (collectd é 5s por padrão, cacti acredito que 30s por padrão), então você tem um período de 30 a 60 segundos que não necessariamente aparece no seu gráficos ... se o sistema estiver totalmente paralisado, isso também afetará o daemon de coleta de dados.

Você pode encontrar informações úteis adicionais em seus arquivos de log, sejam eles /var/log/messages gerais ou /var/log/apache2/error.log específicos do serviço.

Se não puder, recomendo que você revise seus serviços (observei o apache2 na extração de log acima) e verifique se eles são capazes de causar uma situação de esgotamento de memória em seu servidor. (ex.: configuração padrão do apache, com mod_prefork e php deve ser capaz de parar seu sistema).

O que pode causar o erro out_of_memory do kernel?

Atualizar:

Atualização 2:

Responder1

Responder2

Responder3

informação relacionada