Páginas aguardando consulta, consumindo memória e demorando 2 horas para falhar

Question 1

1) publique um rastreamento de pilha.

Eu garanto que eles estarão pendurados em Socket.read() (ou similar)

O que está acontecendo é que metade da conexão TCP com o banco de dados está sendo fechada, deixando o cf aguardando uma resposta que nunca obterá.

Existem problemas de rede entre a caixa cf e o banco de dados.

Os drivers de banco de dados Java em geral são ruins para lidar com isso

Obrigado pelo rastreamento de pilha

Isso confirma minha suposição de que é metade do fechamento da conexão TCP.

Eu suspeito que um dos seguintes 1) o mysql está no linux e há um bug na pilha TCP, então você precisa atualizar o linux nessa caixa - sim, eu já vi isso antes 2) o coldfusion está no linux .. .conforme 1 ) 3) há um cabo/hardware com defeito em ou entre qualquer uma das caixas 4) se você estiver executando o Windows DESABILITE TCP OFFLOAD!!!

número 3) é o difícil. Você precisaria executar o wireshark em ambas as caixas e provar a perda de pacotes. A solução mais simples seria mover as VMs da Rackspace para diferentes hosts físicos e ver se elas desaparecem. (Há uma rara chance de seu código ser muito ruim e você estar saturando a rede entre a caixa CF e a caixa MySQL, mas não tenho certeza se é possível escrever um código tão ruim)

Answer

1) publique um rastreamento de pilha.

Eu garanto que eles estarão pendurados em Socket.read() (ou similar)

O que está acontecendo é que metade da conexão TCP com o banco de dados está sendo fechada, deixando o cf aguardando uma resposta que nunca obterá.

Existem problemas de rede entre a caixa cf e o banco de dados.

Os drivers de banco de dados Java em geral são ruins para lidar com isso

Obrigado pelo rastreamento de pilha

Isso confirma minha suposição de que é metade do fechamento da conexão TCP.

Eu suspeito que um dos seguintes 1) o mysql está no linux e há um bug na pilha TCP, então você precisa atualizar o linux nessa caixa - sim, eu já vi isso antes 2) o coldfusion está no linux .. .conforme 1 ) 3) há um cabo/hardware com defeito em ou entre qualquer uma das caixas 4) se você estiver executando o Windows DESABILITE TCP OFFLOAD!!!

número 3) é o difícil. Você precisaria executar o wireshark em ambas as caixas e provar a perda de pacotes. A solução mais simples seria mover as VMs da Rackspace para diferentes hosts físicos e ver se elas desaparecem. (Há uma rara chance de seu código ser muito ruim e você estar saturando a rede entre a caixa CF e a caixa MySQL, mas não tenho certeza se é possível escrever um código tão ruim)

Question 2

Passei mais algum tempo investigando isso e tenho mais detalhes a acrescentar sobre a causa específica dos problemas de rede e uma solução alternativa encontrada com a ajuda de Charlie Arehart.

Primeiramente, a conexão de rede estava sendo interrompida por um acionamento automatizado de script iptables restart. Isso estava atualizando uma lista de endereços IP que poderiam acessar o servidor, mas também interrompendo quaisquer conexões entre o aplicativo e o servidor de banco de dados.

Era mais provável que isso acontecesse em páginas mais lentas ou que fossem executadas com mais frequência, mas qualquer coisa que coincidisse com o iptables restartcódigo seria cortada.

A Rackspace encontrou isso para mim e sugeriu alterar o código de:

/sbin/service iptables restart

para

/sbin/iptables-restore < /etc/sysconfig/iptables

Isso interrompe a reinicialização do serviço e se aplica apenas a novas conexões.

Essa foi a causa raiz do problema, mas o verdadeiro problema é o fato de que o Coldfusion, ou mesmo o JDBC subjacente, não parava de esperar pela resposta do servidor de banco de dados.

Não tenho certeza de onde ocorreu o tempo limite de 2 horas (supondo que seja um padrão), mas Charlie mostrou uma maneira de definir um tempo limite menor na string de conexão CFIDE - isso diz ao CF para esperar um tempo máximo antes de desistir do banco de dados.

Portanto, nossa string de conexão é:

__fusionreactor_name=datasourcename;connectTimeout=600000;socketTimeout=600000;

Não me lembro dos detalhes desses 2, mas eles estão configurando um tempo em milissegundos para esperar e depois desistir da conexão db:

connectTimeout=600000;
soqueteTimeout=600000;

Este é simplesmente rotular a fonte de dados no Fusion Reactor - se você tiver, é muito útil para encontrar problemas em seus aplicativos CF. Se você não possui o Fusion Reactor, deixe esta parte de fora.

__fusionreactor_name=dsnapi;

Você terá que aplicar isso a CADA fonte de dados em seu CFIDE

Answer