Valores recomendados para mon osd no ceph

Question

O padrão foi aumentado para 600 segundos, só não sei desde qual versão. Alterar o valor só faz sentido se você tiver problemas com a configuração atual. Há muitas coisas que podem acontecer a um servidor além de uma manutenção planejada em que você (deveria) definir o nooutsinalizador para evitar o reequilíbrio quando um servidor estiver inativo (ou OSDs únicos). Por exemplo, um OSD pode falhar por qualquer motivo e está marcado como down. Então com sua configuração atual ele tem 5 minutos para subir novamente ou também ficará marcado outo que acionará um remapeamento dos PGs daquele OSD, ele será drenado. Agora, restaurar um único serviço em 5 minutos não parece tão ruim, mas se você precisar recuperar um servidor inteiro com vários OSDs, pode demorar muito mais. Mas com um mon_osd_down_out_intervalvalor baixo, isso pode levar a "osds oscilantes", causando muito mais problemas no cluster. Presumo que este tenha sido o principal motivo para aumentar o padrão para 10 minutos.

Por outro lado, se o seu cluster for grande o suficiente e as regras de esmagamento e as réplicas estiverem configuradas de maneira razoável, você poderá perder alguns OSDs sem que os clientes percebam. Depende basicamente do administrador do cluster ter uma ideia dos cenários possíveis, porque isso também depende do hardware real. Tenho um cliente cujos servidores precisam de 15 minutos ou mais para reinicializar. Agora imagine uma falha no kernel ou algo que desencadeie uma reinicialização, o servidor não voltaria dentro do intervalo, levando a um remapeamento massivo. Esses casos podem ser melhor controlados com um mon_osd_down_out_interval ajustado.

Answer 1

O padrão foi aumentado para 600 segundos, só não sei desde qual versão. Alterar o valor só faz sentido se você tiver problemas com a configuração atual. Há muitas coisas que podem acontecer a um servidor além de uma manutenção planejada em que você (deveria) definir o nooutsinalizador para evitar o reequilíbrio quando um servidor estiver inativo (ou OSDs únicos). Por exemplo, um OSD pode falhar por qualquer motivo e está marcado como down. Então com sua configuração atual ele tem 5 minutos para subir novamente ou também ficará marcado outo que acionará um remapeamento dos PGs daquele OSD, ele será drenado. Agora, restaurar um único serviço em 5 minutos não parece tão ruim, mas se você precisar recuperar um servidor inteiro com vários OSDs, pode demorar muito mais. Mas com um mon_osd_down_out_intervalvalor baixo, isso pode levar a "osds oscilantes", causando muito mais problemas no cluster. Presumo que este tenha sido o principal motivo para aumentar o padrão para 10 minutos.

Por outro lado, se o seu cluster for grande o suficiente e as regras de esmagamento e as réplicas estiverem configuradas de maneira razoável, você poderá perder alguns OSDs sem que os clientes percebam. Depende basicamente do administrador do cluster ter uma ideia dos cenários possíveis, porque isso também depende do hardware real. Tenho um cliente cujos servidores precisam de 15 minutos ou mais para reinicializar. Agora imagine uma falha no kernel ou algo que desencadeie uma reinicialização, o servidor não voltaria dentro do intervalo, levando a um remapeamento massivo. Esses casos podem ser melhor controlados com um mon_osd_down_out_interval ajustado.

Valores recomendados para mon osd no ceph

Responder1

informação relacionada