Algo está fechando conexões em minhas VMs CentOS - qual a melhor forma de solucionar problemas?

Algo está fechando conexões em minhas VMs CentOS - qual a melhor forma de solucionar problemas?

Tenho uma configuração com 3 VMs (1 servidor de aplicação no CentOS6 e 2 servidores de banco de dados no CentOS7). Nas últimas 1 a 2 semanas, tivemos problemas com tempos limite ao conectar-nos aos servidores de banco de dados (e entre os dois servidores que estão em um cluster).

O provedor de banco de dados (Couchbase) pode ver nos logs que as conexões foram fechadas à força:

WARN com.couchbase.endpoint - [com.couchbase.endpoint][UnexpectedEndpointDisconnectedEvent] The remote side disconnected the endpoint unexpectedly

Os logs também mostram que os pacotes foram descartados, como:

[warn] Interface ‘ens32’ (removedip) failures: RX:2863 / TX:0 - Details:
- RX packets:308,593,167 errors:0
dropped:2,863 overruns:0 frame:0

As VMs estão hospedadas no mesmo host que é um VMware ESXi (versão 6.5). Então elesdeveser capaz de ter boas conexões entre si.

E o que mudou nas últimas semanas? Atualizações de segurança nos sistemas operacionais VM e na versão do servidor de banco de dados (de 6.6.0 a 7.0.0). A atualização do banco de dadosnão deveriamudar alguma coisa na rede, mas obviamente é a razão pela qual entrei em contato pela primeira vez com o provedor do banco de dados...

Qualquer ideia para encontrar o culpado é muito apreciada :-)

Editar:

Seguindo a sugestão de Cameron, executei um breve rastreamento de rede e carreguei-o no Wireshark em minha máquina local. Então abri as "Informações especializadas" e recebi isto: Wireshark - Informações especializadas Preciso dizer que existe um servidor proxy Nginx na frente do servidor de aplicação. Ele lida com SSL e "retira-o" antes de acessar o aplicativo. servidor. Apenas olhando as informações, eu esperaria que os dois blocos "vermelhos" estivessem relacionados a solicitações vindas de fora - e não do aplicativo. servidor para os servidores de banco de dados.

Mas não tenho certeza do que procurar nos resultados? - e acho que preciso deixar funcionar um pouco mais - mas talvez sem a informação externa?

Editar 2

Enquanto estava sentado olhando para ele, o problema realmente surgiu... - então rapidamente iniciei o tcpdump novamente. Portanto, os resultados podem não conter a causa raiz – mas devem ser mais relevantes que o primeiro: Wireshark - Informações de especialistas (2) Os blocos que expandi parecem estar relacionados à comunicação com um dos servidores de banco de dados.... :-)

Mas o que esses resultados significam e como posso chegar mais perto de encontrar a causa?

Responder1

bem-vindo à falha do servidor.

Dada a idade; Como o CentOS 6 está sem suporte agora, é muito provável que você esteja sofrendo de incompatibilidades SSL/TLS; supondo, é claro, que você esteja se conectando por causa disso. Certamente experimentamos muitos desses eventos ao longo do tempo com o RHEL6, pois o SSL2 etc. foi progressivamente desativado por padrão. Da mesma forma com várias versões pontuais de Java (alguns lançamentos pontuais na série 1.7 foram particularmente turbulentos)

Outro motivo possível, visto que você está executando uma carga de trabalho do CentOS no ESXi, é que você pode estar com pouca entropia, o que causa um comportamento de bloqueio que pode levar a tempos limite e problemas de cluster, levando a interrupções de conexão. Até algum ponto do Java 8, o Java era particularmente suscetível a isso. Você pode julgar se isso é um problema para você observando /proc/sys/kernel/random/entropy_avail ao longo do tempo; se chegar a menos de 128 ou mais e não se recuperar, você terá fome de entropia. Comum em uma VM onde não há atividade de teclado e mouse; você pode tentar executar um daemon de coleta de entropia, se for esse o caso.

A propósito, eu não concluiria a partir desses logs que algo [outra] está forçando ativamente o fechamento dessas conexões; só que a conexão foi encerrada em um momento em que uma das partes não esperava. Isso pode ser devido a coisas como tempo limite, exceções, falha no processo, etc.

Você diz que o servidor de banco de dados foi atualizado... foi uma atualização do sistema operacional do CentOS 6? O aplicativo também foi atualizado ou foi suspenso e transferido?

Felicidades, Cameron

informação relacionada