
Estoy intentando implementar Ceph Quincy usando ceph-ansible en Rocky9. Tengo algunos problemas y no sé dónde buscar el motivo.
PD: Hice la misma implementación en Rocky8 usando ceph-ansible para la versión Pacific en el mismo hardware y funcionó perfectamente.
Tengo 03 nodos controladores: mon, mgr, mdss y rgws. Y 27 nodos osd: con 04 discos nvme (osd) cada uno. Estoy usando una red de 10 Gb con tramas gigantes.
La implementación comienza sin problemas, los 03 monitores se crean correctamente, luego se crean los 03 administradores, después de eso se preparan y formatean los OSD, hasta aquí todo funciona bien, pero cuando aparece la tarea "esperar a que todos los osd estén activos" se lanza, lo que significa iniciar todos los contenedores de OSD en todos los nodos de OSD, las cosas van mal, los monitores se quedan sin quórum, ceph -s tarda mucho en responder y no todos los OSD se activan, y la implementación falla al final .
cluster 2023-03-06T12:00:26.431947+0100 mon.controllera (mon.0) 3864 : cluster [WRN] [WRN] MON_DOWN: 1/3 mons down, quorum controllera,controllerc
cluster 2023-03-06T12:00:26.431953+0100 mon.controllera (mon.0) 3865 : cluster [WRN] mon.controllerb (rank 1) addr [v2:20.1.0.27:3300/0,v1:20.1.0.27:6789/0] is down (out of quorum)
El contenedor del monitor en 2 de mis nodos de controladores permanece al 100% de utilización de la CPU.
CONTAINER ID NAME CPU % MEM USAGE / LIMIT MEM % NET I/O BLOCK I/O PIDS
068e4e55f299 ceph-mon-controllera 99.91% 58.12MiB / 376.1GiB 0.02% 0B / 0B 122MB / 85.3MB 28 <--------
87730f89420d ceph-mgr-controllera 0.32% 408.2MiB / 376.1GiB 0.11% 0B / 0B 181MB / 0B 35
¿Podría ser eso un problema de recursos? ¿Los contenedores del monitor no tienen suficientes recursos de CPU, RAM, etc. para manejar todos los OSD que se están iniciando? En caso afirmativo, ¿cómo puedo encontrar esto? y ¿cómo puedo corregirlo?
Gracias de antemano.
Saludos.