O que pode fazer com que TODOS os serviços em um servidor fiquem inativos, mas ainda respondam ao ping? e como descobrir

O que pode fazer com que TODOS os serviços em um servidor fiquem inativos, mas ainda respondam ao ping? e como descobrir

Já aconteceu comigo duas vezes em poucos dias que meu servidor caiu completamente, ou seja, http, ssh, ftp, dns, smtp, basicamente TODOS os serviços pararam de responder, como se o servidor tivesse sido desligado, exceto que ainda responde ao ping , que é o que mais me incomoda.

Eu tenho alguns scripts php que causam uma carga enorme (CPU e memória) no servidor em rajadas curtas, usadas por um pequeno grupo de usuários, mas geralmente o servidor "sobrevive" perfeitamente bem a essas rajadas, e quando cai ele nunca coincide com esses picos de uso (não estou dizendo que não possa estar relacionado, mas não acontece logo depois deles).

Não estou pedindo que você seja capaz de me dizer magicamente a causa final dessas falhas, minha pergunta é: existe um único processo cuja morte pode fazer com que todos esses serviços caiam simultaneamente? O engraçado é que todos os serviços de rede ficam inativos, exceto o ping. Se o servidor tivesse 100% da CPU consumida por algum processo, ele também não responderia ao ping. Se o apache travasse por causa (por exemplo) de um script php quebrado, isso afetaria apenas http, não ssh e dns... etc.

Meu sistema operacional é Cent OS 5.6

Mais importante ainda, após a reinicialização forçada do servidor, quais logs do sistema devo examinar? /var/log/messages não revela nada suspeito.

Responder1

(dr.ainda responder ao ping é um comportamento esperado, verifique o uso de memória)

As solicitações de eco ICMP (ou seja, ping) são tratadas pela pilha de rede no kernel, sem nenhuma outra dependência.

O kernel é conhecido como "residente na memória", o que significa que sempre será mantido na RAM e não pode ser trocado para o disco como um aplicativo normal.

Isso significa que em situações em que você fica sem memória física, os aplicativos são trocados para o disco, mas o kernel permanece onde está. Quando a memória física e a memória swap estiverem cheias (e o sistema não puder mais gerenciar seus programas), a máquina irá falhar. No entanto, porquea)o kernel ainda está na memória eb)ele pode responder a solicitações de ping sem a ajuda de mais nada, o sistema continuará respondendo ao ping apesar de tudo estar morto.

Em relação ao seu problema, suspeito fortemente de problemas de memória. Instale "sysstat" e use o comando "sar" para ver um log de memória/cpu/load/io load etc. Eu esperaria que em momentos de falha você visse 100% físico e swap usados.

Eu também consideraria olhardmesgou/var/log/mensagenspara qualquer sinal de que o OOM-killer (out-of-memory-killer) está sendo invocado. Este é o sistema de emergência do kernel que começará a eliminar processos no caso de esgotamento da memória. Sua eficácia depende muito de quais processos estão sendo eliminados. Um único processo que consome memória será eliminado com eficiência e a memória será liberada; no entanto, um site baseado em Apache gerará processos de substituição assim que um processo filho for eliminado.

Responder2

Geralmente, é um problema de E/S ou de subsistema de disco. Muitas vezes, isso estará associado a uma média de carga do sistema extremamente alta. Por exemplo, o sistema detalhado no gráfico abaixo parou de responder (ainda era pingável) quando um script funcionou incorretamente, bloqueou vários arquivos e a carga subiu para 36... em um sistema de 4 CPUs.

insira a descrição da imagem aqui

Os serviços que estão rodando na RAM e não requerem acesso ao disco continuam rodando... Assim, a pilha de rede (ping) está ativa, mas os demais serviços param quando o acesso ao disco é necessário... SSH quando uma chave é referenciada ou pesquisa de senha necessária. O SMTP tende a desligar quando a média de carga atinge 30 ou mais...

Quando o sistema estiver neste estado, tente um controle remoto nmapno IP do servidor para ver o que está acontecendo.

Seu registro provavelmente não funciona se for um problema de disco ou armazenamento...

Você pode descrever a configuração do hardware? Esta é uma máquina virtual? Qual é o layout de armazenamento?

Mais do que registrar, você quer ver se consegue representar graficamente o desempenho do sistema e entender quando isso está acontecendo. Veja se isso se correlaciona com uma atividade específica.

informação relacionada