Estoy lidiando con una especie de "problema fantasma". Tenemos una URL de punto final que algunas personas pueden usar en todo momento sin problemas, pero otras tienen una conexión congelada en el lado del cliente (verificada con múltiples códigos de cliente escritos en Java, Python C#) que nunca finaliza mientras el servidor puede ver el restablecimiento de la conexión. He capturado tráfico a través de una red que funciona y está perfectamente sincronizada y puedo ver que cuando el remitente se acerca al tamaño de la ventana del receptor, retrocede mientras que la red que falla, los bytes en vuelo superan de 3 a 4 veces el tamaño de ventana calculado. Para hacer las cosas más confusas, tenemos 2 puntos finales diferentes con una configuración casi idéntica y hay uno que causa el problema descrito y otro que puede manejarlo todo. (La única diferencia entre los puntos finales es el tipo de VM utilizado en el clúster). Parece que el ajuste de escala automático se anuncia en ambos casos y los paquetes iniciales me parecen idénticos. Aquí hay una captura de la red de trabajo. La captura de red fallida La captura de red fallida