Страницы зависают в ожидании запроса, потребляют память и выходят из строя через 2 часа

Question 1

1) опубликовать трассировку стека.

Я гарантирую, что они будут зависать на Socket.read() (или подобном)

Происходит то, что половина TCP-подключения к базе данных закрывается, и cf остается в ожидании ответа, который он никогда не получит.

Возникли проблемы с сетью между cf box и базой данных.

Драйверы баз данных Java в целом плохо справляются с этой задачей.

Спасибо за трассировку стека

Это подтверждает мое предположение, что закрытие соединения TCP происходит наполовину.

Я подозреваю, что произошло одно из следующего: 1) mysql работает на Linux, и в стеке TCP есть ошибка, поэтому вам нужно обновить Linux на этом компьютере — да, я уже видел это раньше; 2) coldfusion работает на Linux... согласно 1); 3) на одном из компьютеров или между ними неисправен кабель/оборудование; 4) если вы используете Windows, ОТКЛЮЧИТЕ TCP OFFLOAD!!!

Номер 3) — сложный. Вам нужно будет запустить Wireshark на обоих ящиках и доказать потерю пакетов. Более простым решением было бы переместить виртуальные машины Rackspace на другие физические хосты и посмотреть, исчезнет ли проблема. (Есть редкая вероятность, что ваш код очень-очень плох, и вы перегружаете сеть между ящиком CF и ящиком MySQL, но я не уверен, что возможно написать настолько плохой код)

Answer

1) опубликовать трассировку стека.

Я гарантирую, что они будут зависать на Socket.read() (или подобном)

Происходит то, что половина TCP-подключения к базе данных закрывается, и cf остается в ожидании ответа, который он никогда не получит.

Возникли проблемы с сетью между cf box и базой данных.

Драйверы баз данных Java в целом плохо справляются с этой задачей.

Спасибо за трассировку стека

Это подтверждает мое предположение, что закрытие соединения TCP происходит наполовину.

Я подозреваю, что произошло одно из следующего: 1) mysql работает на Linux, и в стеке TCP есть ошибка, поэтому вам нужно обновить Linux на этом компьютере — да, я уже видел это раньше; 2) coldfusion работает на Linux... согласно 1); 3) на одном из компьютеров или между ними неисправен кабель/оборудование; 4) если вы используете Windows, ОТКЛЮЧИТЕ TCP OFFLOAD!!!

Номер 3) — сложный. Вам нужно будет запустить Wireshark на обоих ящиках и доказать потерю пакетов. Более простым решением было бы переместить виртуальные машины Rackspace на другие физические хосты и посмотреть, исчезнет ли проблема. (Есть редкая вероятность, что ваш код очень-очень плох, и вы перегружаете сеть между ящиком CF и ящиком MySQL, но я не уверен, что возможно написать настолько плохой код)

Question 2

Я потратил некоторое время на изучение этого вопроса и могу добавить некоторые подробности о конкретной причине сетевых проблем и способе их решения, найденном с помощью Чарли Арехарта.

Во-первых, сетевое соединение прерывалось из-за автоматического запуска скрипта iptables restart. Это обновляло список IP-адресов, которые могли получить доступ к серверу, но также разрывало любые соединения между приложением и сервером БД.

Чаще всего это происходило на медленных страницах или на тех, которые запускались чаще, но все, что совпадало с iptables restartкодом, обрезалось.

Rackspace нашел это для меня и предложил изменить код с:

/sbin/service iptables restart

к

/sbin/iptables-restore < /etc/sysconfig/iptables

Это останавливает перезапуск службы и применяется только к новым подключениям.

Это было основной причиной проблемы, но настоящая проблема заключалась в том, что Coldfusion или, по сути, JDBC, лежащий в его основе, не прекращал ждать ответа от сервера БД.

Я не уверен, откуда взялся двухчасовой тайм-аут (предполагаю, что это значение по умолчанию), но Чарли показал способ установить меньшее время ожидания в строке подключения CFIDE — это сообщает CF о необходимости выждать максимальное время, прежде чем отказаться от базы данных.

Итак, наша строка подключения:

__fusionreactor_name=datasourcename;connectTimeout=600000;socketTimeout=600000;

Я не помню подробностей этих двух, но они устанавливают время ожидания в миллисекундах, а затем прекращают соединение с базой данных:

connectTimeout=600000;
socketTimeout=600000;

Это просто маркировка источника данных в Fusion Reactor - если у вас он есть, он очень полезен для поиска проблем в ваших приложениях CF. Если у вас нет Fusion Reactor, то пропустите этот кусок.

__fusionreactor_name=dsnapi;

Вам придется применить это к КАЖДОМУ источнику данных в вашем CFIDE.

Answer