Seiten bleiben hängen, während sie auf eine Abfrage warten, verbrauchen Speicher und es dauert 2 Stunden, bis sie fehlschlagen

Question 1

1) Posten Sie einen Stacktrace.

Ich garantiere, dass sie an Socket.read() (oder ähnlichem) hängen bleiben.

Was passiert, ist, dass die Hälfte der TCP-Verbindung zur Datenbank geschlossen wird, sodass CF auf eine Antwort wartet, die es nie erhalten wird.

Es gibt Netzwerkprobleme zwischen der CF-Box und der Datenbank.

Java-DB-Treiber sind im Allgemeinen schlecht im Umgang mit diesem

Danke für den Stacktrace

Dies bestätigt meine Annahme, dass die Hälfte der TCP-Verbindung geschlossen wird.

Ich vermute einen der folgenden Gründe: 1) MySQL läuft unter Linux und hat einen Fehler im TCP-Stack, Sie müssen also Linux auf dieser Box aktualisieren – ja, das habe ich schon einmal gesehen. 2) ColdFusion läuft unter Linux … gemäß 1) 3) Auf oder zwischen einer der Boxen befindet sich ein fehlerhaftes Kabel/eine fehlerhafte Hardware. 4) Wenn Sie Windows verwenden, DEAKTIVIEREN SIE TCP-OFFLOAD!!!

Nummer 3) ist die schwierigste. Sie müssten Wireshark auf beiden Boxen ausführen und Paketverluste nachweisen. Die einfachere Lösung wäre, die Rackspace-VMs auf andere physische Hosts zu verschieben und zu sehen, ob das Problem verschwindet. (Es besteht eine geringe Chance, dass Ihr Code sehr, sehr schlecht ist und Sie das Netzwerk zwischen der CF-Box und der MySQL-Box überlasten, aber ich bin nicht sicher, ob es möglich ist, so schlechten Code zu schreiben.)

Answer

1) Posten Sie einen Stacktrace.

Ich garantiere, dass sie an Socket.read() (oder ähnlichem) hängen bleiben.

Was passiert, ist, dass die Hälfte der TCP-Verbindung zur Datenbank geschlossen wird, sodass CF auf eine Antwort wartet, die es nie erhalten wird.

Es gibt Netzwerkprobleme zwischen der CF-Box und der Datenbank.

Java-DB-Treiber sind im Allgemeinen schlecht im Umgang mit diesem

Danke für den Stacktrace

Dies bestätigt meine Annahme, dass die Hälfte der TCP-Verbindung geschlossen wird.

Ich vermute einen der folgenden Gründe: 1) MySQL läuft unter Linux und hat einen Fehler im TCP-Stack, Sie müssen also Linux auf dieser Box aktualisieren – ja, das habe ich schon einmal gesehen. 2) ColdFusion läuft unter Linux … gemäß 1) 3) Auf oder zwischen einer der Boxen befindet sich ein fehlerhaftes Kabel/eine fehlerhafte Hardware. 4) Wenn Sie Windows verwenden, DEAKTIVIEREN SIE TCP-OFFLOAD!!!

Nummer 3) ist die schwierigste. Sie müssten Wireshark auf beiden Boxen ausführen und Paketverluste nachweisen. Die einfachere Lösung wäre, die Rackspace-VMs auf andere physische Hosts zu verschieben und zu sehen, ob das Problem verschwindet. (Es besteht eine geringe Chance, dass Ihr Code sehr, sehr schlecht ist und Sie das Netzwerk zwischen der CF-Box und der MySQL-Box überlasten, aber ich bin nicht sicher, ob es möglich ist, so schlechten Code zu schreiben.)

Question 2

Ich habe etwas mehr Zeit darauf verwendet, dies zu untersuchen, und kann nun einige weitere Einzelheiten über die spezifische Ursache der Netzwerkprobleme und einen Workaround hinzufügen, den ich mit etwas Hilfe von Charlie Arehart gefunden habe.

Zunächst wurde die Netzwerkverbindung durch ein automatisiertes Skript unterbrochen iptables restart. Dadurch wurde eine Liste von IP-Adressen aktualisiert, die auf den Server zugreifen konnten, aber auch alle Verbindungen zwischen der Anwendung und dem DB-Server wurden unterbrochen.

Dies passierte eher auf langsameren Seiten oder solchen, die häufiger ausgeführt wurden, aber alles, was mit dem iptables restartCode zusammenhing, wurde abgeschnitten.

Rackspace hat dies für mich gefunden und vorgeschlagen, den Code wie folgt zu ändern:

/sbin/service iptables restart

Zu

/sbin/iptables-restore < /etc/sysconfig/iptables

Dies verhindert einen Neustart des Dienstes und gilt nur für neue Verbindungen.

Dies war die Grundursache des Problems, das wirkliche Problem besteht jedoch darin, dass Coldfusion bzw. das zugrunde liegende JDBC nicht aufhörte, auf die Antwort vom DB-Server zu warten.

Ich bin nicht sicher, woher das 2-Stunden-Timeout kommt (ich nehme an, es ist ein Standard), aber Charlie hat eine Möglichkeit gezeigt, in der CFIDE-Verbindungszeichenfolge ein kürzeres Timeout festzulegen – dies weist CF an, eine maximale Zeit zu warten, bevor die Datenbank aufgegeben wird.

Unsere Verbindungszeichenfolge lautet also:

__fusionreactor_name=datasourcename;connectTimeout=600000;socketTimeout=600000;

Ich kann mich bei diesen beiden nicht an die Einzelheiten erinnern, aber sie legen eine Zeit in Millisekunden fest, die gewartet und dann die Datenbankverbindung aufgegeben wird:

VerbindungsTimeout=600000;
SocketTimeout = 600000;

Dies ist einfach die Bezeichnung der Datenquelle in Fusion Reactor. Wenn Sie es haben, ist es sehr nützlich, um Probleme in Ihren CF-Anwendungen zu finden. Wenn Sie Fusion Reactor nicht haben, lassen Sie diesen Teil weg.

__fusionreactor_name=dsnapi;

Sie müssen dies auf JEDE Datenquelle in Ihrem CFIDE anwenden

Answer