Valores recomendados para mon osd en ceph

Question

El valor predeterminado se ha aumentado a 600 segundos, pero no sé desde qué versión. Cambiar el valor sólo tiene sentido si tuvo problemas con la configuración actual. Hay muchas cosas que le pueden suceder a un servidor además de un mantenimiento planificado en el que usted (debe) configurar el nooutindicador para evitar el reequilibrio cuando un servidor está inactivo (o OSD individuales). Por ejemplo, un OSD puede fallar por cualquier motivo y está marcado down. Luego, con su configuración actual, tiene 5 minutos para volver a activarse o también se marcará, outlo que provocará una reasignación de las PG de ese OSD y se drenará. Ahora, recuperar un solo servicio en 5 minutos no suena tan mal, pero si necesita recuperar un servidor completo con múltiples OSD, puede llevar mucho más tiempo. Pero con un mon_osd_down_out_intervalvalor bajo, esto puede provocar que los "OSD" se muevan y causen muchos más problemas en el clúster. Supongo que esta fue la razón principal para aumentar el valor predeterminado a 10 minutos.

Por otro lado, si su clúster es lo suficientemente grande y las reglas de aplastamiento y las réplicas están configuradas de manera razonable, debería poder perder algunos OSD sin que los clientes lo noten. Básicamente, depende del administrador del clúster tener una idea de los posibles escenarios porque también depende del hardware real. Tengo un cliente cuyos servidores necesitan 15 minutos o más para reiniciarse. Ahora imagine una falla del kernel o algo que provoque un reinicio, el servidor no regresaría dentro del intervalo que lleva a una reasignación masiva. Estos casos se pueden controlar mejor con un mon_osd_down_out_interval ajustado.

Answer 1

El valor predeterminado se ha aumentado a 600 segundos, pero no sé desde qué versión. Cambiar el valor sólo tiene sentido si tuvo problemas con la configuración actual. Hay muchas cosas que le pueden suceder a un servidor además de un mantenimiento planificado en el que usted (debe) configurar el nooutindicador para evitar el reequilibrio cuando un servidor está inactivo (o OSD individuales). Por ejemplo, un OSD puede fallar por cualquier motivo y está marcado down. Luego, con su configuración actual, tiene 5 minutos para volver a activarse o también se marcará, outlo que provocará una reasignación de las PG de ese OSD y se drenará. Ahora, recuperar un solo servicio en 5 minutos no suena tan mal, pero si necesita recuperar un servidor completo con múltiples OSD, puede llevar mucho más tiempo. Pero con un mon_osd_down_out_intervalvalor bajo, esto puede provocar que los "OSD" se muevan y causen muchos más problemas en el clúster. Supongo que esta fue la razón principal para aumentar el valor predeterminado a 10 minutos.

Por otro lado, si su clúster es lo suficientemente grande y las reglas de aplastamiento y las réplicas están configuradas de manera razonable, debería poder perder algunos OSD sin que los clientes lo noten. Básicamente, depende del administrador del clúster tener una idea de los posibles escenarios porque también depende del hardware real. Tengo un cliente cuyos servidores necesitan 15 minutos o más para reiniciarse. Ahora imagine una falla del kernel o algo que provoque un reinicio, el servidor no regresaría dentro del intervalo que lleva a una reasignación masiva. Estos casos se pueden controlar mejor con un mon_osd_down_out_interval ajustado.

Valores recomendados para mon osd en ceph

Respuesta1

información relacionada