
“mon osd down out”有建議值嗎?該叢集有 15 個節點和 300 個 osd。它正在運行 ceph Jewell。
Jewel 中的預設值為 300 秒。我想知道,更改預設值有什麼好處或壞處?
答案1
預設值已增加到 600 秒,我只是不知道從哪個版本開始。只有當您在目前配置中遇到問題時,更改該值才有意義。除了計劃維護之外,伺服器還可能發生很多事情,您(應該)設定標誌noout
以防止在伺服器(或單一 OSD)關閉時進行重新平衡。例如,OSD 可能因任何原因而失敗並被標記為down
。然後,根據您目前的配置,它有 5 分鐘的時間再次啟動,否則它也會被標記,out
這將觸發從該 OSD 重新映射 PG,它將被耗盡。現在,在 5 分鐘內恢復單一服務聽起來並沒有那麼糟糕,但如果您需要恢復具有多個 OSD 的整個伺服器,則可能需要更長的時間。但如果值較低,mon_osd_down_out_interval
這可能會導致“OSD 抖動”,從而給叢集帶來更多麻煩。我認為這是將預設時間增加到 10 分鐘的主要原因。
另一方面,如果您的叢集足夠大,並且粉碎規則和副本配置合理,您應該能夠在客戶端沒有註意到的情況下丟失一些 OSD。基本上由叢集管理員來了解可能的場景,因為它還取決於實際的硬體。我有一位客戶的伺服器需要 15 分鐘或更長時間才能重新啟動。現在想像一下內核崩潰或觸發重新啟動的事件,伺服器不會在導致大規模重新映射的間隔內返回。透過調整 mon_osd_down_out_interval 可以更好地控制這些情況。