
Eu tenho um servidor nagios rodando Ubuntu com processador Intel de 2,0 GHz, array RAID10 e 400 MB de RAM. Ele monitora um total de 42 serviços em 8 hosts, a maioria dos quais são verificados usando o plugin check_http por até 5 minutos, alguns a cada minuto. Recentemente, a carga no servidor nagios tem estado acima de 4, muitas vezes chegando a 6. O servidor também executa cactos, coletando estatísticas a cada minuto para 6 hosts.
Eu me pergunto: quantos serviços um hardware como esse deve ser capaz de suportar? A carga é tão alta porque estou ultrapassando os limites do hardware ou esse hardware deveria ser capaz de lidar com 42 verificações de serviço mais cactos? Se o hardware for inadequado, devo adicionar mais RAM, mais núcleos ou núcleos mais rápidos? Quais verificações de hardware/serviço outras pessoas estão executando?
Responder1
Você precisa descobrir onde está o seu gargalo...
Eu executo um monitor nagios que verifica mais de 400 hosts com verificações de http, ping e ssh. (junto com muitas outras verificações passivas e nscd)
Isto está em um servidor 2xQuadCore com 4 discos SAS em RAID10.
Suspeito que você esteja tendo uma contenção de IO, pois escrever para muitos rrds é muito ineficiente.
Você precisa descobrir qual processo está consumindo seus recursos. (cactos, nagios ou qualquer outra coisa)
Para verificação de IO, gosto do iotop. Instale o iotop (o pacote 9.04 funciona no 8.04)
Mas, caso contrário, o topo também deve ajudá-lo a encontrar o seu porco de carga.
Cactos uma vez por minuto são bastante agressivos. (Eu corro o meu em intervalos de 5m)
Uma abordagem que ouvi falar para contenção de gravação de rrd é colocar seus armazenamentos de rrd em um ramdisk/tmpfs. (certifique-se de sincronizar novamente de vez em quando para armazenamento persistente)
Boa sorte.
Responder2
A menos que sejam cactos gerando a maior parte da carga, você poderá executar muito mais verificações do que em seu hardware.
Estou executando o nagios em uma máquina virtual FreeBSD rodando no Microsoft Virtual Server em um PC antigo e lento (Pentium 3 1GHz com um disco PATA lento). A máquina virtual tem apenas 128 MB de RAM e o desempenho é péssimo.
No entanto, a média de carga é de cerca de 0,2, executando 158 verificações em 42 hosts.
Responder3
Em um PIII antigo com 256 MB de RAM, estou monitorando ativamente cerca de 230 serviços diferentes. A mesma máquina também executa MRTG e HylaFAX para todos os nossos faxes recebidos e faz isso com bastante conforto.
Responder4
Você deve ser capaz de executar um monte de verificações do Nagios com esse hardware. Executamos uma configuração semelhante com cerca de 70 verificações e Nagiosgraph - a principal diferença é a adição de RAM (é barata, então eu aumentaria a caixa para 2 Gb).
Tente executar top ou ps -aux para ver se a CPU está sobrecarregada, mas duvido. Você também pode querer verificar o nagiosdocumentos de paralelizaçãopara ver se sua instalação está tentando executar muitas verificações de uma vez em vez de serializá-las.