Las páginas cuelgan esperando una consulta, consumen memoria y tardan 2 horas en fallar

Question 1

1) publicar un seguimiento de la pila.

Te garantizo que estarán colgados en Socket.read() (o similar)

Lo que está ocurriendo es que la mitad de la conexión tcp a la base de datos se está cerrando, dejando a cf esperando una respuesta que nunca obtendrá.

Hay problemas de red entre cf box y db.

Los controladores de base de datos de Java en general no son buenos para lidiar con esto

Gracias por el seguimiento de la pila.

Esto confirma mi suposición de que se está cerrando la mitad de la conexión TCP.

Sospecho que uno de los siguientes 1) mysql está en Linux y hay un error en la pila TCP, por lo que necesita actualizar Linux en ese cuadro; sí, he visto esto antes 2) Coldfusion está en Linux... según 1 ) 3) hay un cable/hardware defectuoso en o entre cualquiera de las cajas 4) si está ejecutando Windows, ¡¡¡DESHABILITE LA DESCARGA TCP!!!

El número 3) es el difícil. Debería ejecutar Wirehark en ambas cajas y demostrar la pérdida de paquetes. La solución más sencilla sería mover las máquinas virtuales de Rackspace a diferentes hosts físicos y ver si desaparece. (Existe una rara posibilidad de que su código sea muy malo y esté saturando la red entre el cuadro CF y el cuadro MySQL, pero no estoy seguro de que sea posible escribir un código tan malo)

Answer

1) publicar un seguimiento de la pila.

Te garantizo que estarán colgados en Socket.read() (o similar)

Lo que está ocurriendo es que la mitad de la conexión tcp a la base de datos se está cerrando, dejando a cf esperando una respuesta que nunca obtendrá.

Hay problemas de red entre cf box y db.

Los controladores de base de datos de Java en general no son buenos para lidiar con esto

Gracias por el seguimiento de la pila.

Esto confirma mi suposición de que se está cerrando la mitad de la conexión TCP.

Sospecho que uno de los siguientes 1) mysql está en Linux y hay un error en la pila TCP, por lo que necesita actualizar Linux en ese cuadro; sí, he visto esto antes 2) Coldfusion está en Linux... según 1 ) 3) hay un cable/hardware defectuoso en o entre cualquiera de las cajas 4) si está ejecutando Windows, ¡¡¡DESHABILITE LA DESCARGA TCP!!!

El número 3) es el difícil. Debería ejecutar Wirehark en ambas cajas y demostrar la pérdida de paquetes. La solución más sencilla sería mover las máquinas virtuales de Rackspace a diferentes hosts físicos y ver si desaparece. (Existe una rara posibilidad de que su código sea muy malo y esté saturando la red entre el cuadro CF y el cuadro MySQL, pero no estoy seguro de que sea posible escribir un código tan malo)

Question 2

He dedicado más tiempo a investigar esto y tengo más detalles que agregar sobre la causa específica de los problemas de red y una solución alternativa encontrada con la ayuda de Charlie Arehart.

En primer lugar, la conexión de red estaba siendo interrumpida por un script automático que se activaba iptables restart. Esto fue actualizar una lista de direcciones IP que podían acceder al servidor pero también romper cualquier conexión entre la aplicación y el servidor de base de datos.

Era más probable que ocurriera en páginas más lentas o en aquellas que se ejecutaban con más frecuencia, pero cualquier cosa que coincidiera con el iptables restartcódigo se cortaría.

Rackspace encontró esto por mí y sugirió cambiar el código de:

/sbin/service iptables restart

a

/sbin/iptables-restore < /etc/sysconfig/iptables

Esto detiene el reinicio del servicio y solo se aplica a nuevas conexiones.

Esta fue la causa raíz del problema, pero el verdadero problema es el hecho de que Coldfusion, o realmente el JDBC subyacente, no dejaba de esperar la respuesta del servidor de base de datos.

No estoy seguro de dónde entró el tiempo de espera de 2 horas (suponiendo que sea un valor predeterminado), pero Charlie mostró una manera de establecer un tiempo de espera más bajo en la cadena de conexión CFIDE; esto le dice a CF que espere un tiempo máximo antes de abandonar la base de datos.

Entonces nuestra cadena de conexión es:

__fusionreactor_name=datasourcename;connectTimeout=600000;socketTimeout=600000;

No recuerdo los detalles de estos 2, pero están estableciendo un tiempo en milisegundos para esperar y luego abandonar la conexión de base de datos:

conectarTimeout=600000;
socketTimeout=600000;

Este simplemente etiqueta la fuente de datos en Fusion Reactor; si lo tiene, es muy útil para encontrar problemas en sus aplicaciones CF. Si no tienes Fusion Reactor, omite esta parte.

__fusionreactor_name=dsnapi;

Tendrás que aplicar esto a CADA fuente de datos en tu CFIDE

Answer