
Esto es una posibilidad un poco remota, pero actualmente estamos experimentando algunos problemas con una de nuestras aplicaciones Java Dockerizadas:pregunta de desbordamiento de pila
Hemos establecido el límite de memoria de la ventana acoplable en 2 GB, que está mucho más allá de lo que la aplicación Java podría usar, por lo que realmente estoy buscando cualquier posible causa de este problema.
¿Es posible que durante la desfragmentación/compactación de la memoria, el sistema informe un mayor uso de memoria para la aplicación para la que está realizando esas operaciones (en su memoria asignada) y, por lo tanto, active el asesino OOM de Docker?
Alguna información más de uno de los servidores EC2.
gato /proc/pagetypeinfo
Page block order: 9
Pages per block: 512
Free pages count per migrate type at order 0 1 2 3 4 5 6 7 8 9 10
Node 0, zone DMA, type Unmovable 1 0 0 1 2 1 1 0 1 0 0
Node 0, zone DMA, type Movable 0 0 0 0 0 0 0 0 0 1 3
Node 0, zone DMA, type Reclaimable 0 0 0 0 0 0 0 0 0 0 0
Node 0, zone DMA, type HighAtomic 0 0 0 0 0 0 0 0 0 0 0
Node 0, zone DMA, type Isolate 0 0 0 0 0 0 0 0 0 0 0
Node 0, zone DMA32, type Unmovable 2160 1450 509 358 72 0 0 0 0 0 0
Node 0, zone DMA32, type Movable 39753 18110 3832 317 88 18 2 0 0 0 0
Node 0, zone DMA32, type Reclaimable 479 970 7 6 3 0 1 0 0 0 0
Node 0, zone DMA32, type HighAtomic 0 0 0 0 0 0 0 0 0 0 0
Node 0, zone DMA32, type Isolate 0 0 0 0 0 0 0 0 0 0 0
Node 0, zone Normal, type Unmovable 72 410 350 0 0 0 0 0 0 0 0
Node 0, zone Normal, type Movable 132228 61046 1635 0 0 0 0 0 0 0 0
Node 0, zone Normal, type Reclaimable 0 2 7 1 0 0 0 0 0 0 0
Node 0, zone Normal, type HighAtomic 2 0 15 11 7 2 0 0 0 0 0
Node 0, zone Normal, type Isolate 0 0 0 0 0 0 0 0 0 0 0
Number of blocks type Unmovable Movable Reclaimable HighAtomic Isolate
Node 0, zone DMA 1 7 0 0 0
Node 0, zone DMA32 59 1391 78 0 0
Node 0, zone Normal 448 5888 127 1 0
gato /proc/sys/vm/extfrag_threshold
500
gato /sys/kernel/debug/extfrag/extfrag_index
Node 0, zone DMA -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000
Node 0, zone DMA32 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 0.988 0.994 0.997 0.999
Node 0, zone Normal -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 0.979 0.990 0.995 0.998 0.999
libre -h
total used free shared buff/cache available
Mem: 15G 11G 1.5G 1.2M 2.4G 3.7G
Swap: 4.0G 907M 3.1G
Solo tenemos este problema en nuestros servidores de producción (que han estado funcionando durante casi un año), nuestros entornos inferiores se detienen cada fin de semana y hasta ahora no hemos logrado activar este problema manualmente. Sin embargo, intentaremos reemplazar los servidores la próxima semana, esperando que sea mucho menos probable que ocurra este problema.
Sé que es una posibilidad remota, no soy un experto en lo que respecta a la administración de memoria de Linux y probablemente es muy poco probable que sea la causa raíz, pero es una pregunta cuya respuesta me encantaría saber.