
Есть ли рекомендуемые значения для "mon osd down out"? В кластере 15 узлов и 300 osd. Работает ceph Jewl.
Значение по умолчанию в Jewel — 300 секунд. Мне было интересно, есть ли какие-либо преимущества или недостатки в изменении значения по умолчанию?
решение1
Значение по умолчанию было увеличено до 600 секунд, я просто не знаю, с какого релиза. Изменение значения имеет смысл только в том случае, если у вас возникли проблемы с текущей конфигурацией. Есть много вещей, которые могут произойти с сервером, помимо планового обслуживания, когда вы (должны) установить флаг, noout
чтобы предотвратить повторную балансировку, когда сервер отключен (или отдельные OSD). Например, OSD может выйти из строя по любой причине и помечается down
. Затем с вашей текущей конфигурацией у него есть 5 минут, чтобы снова подняться, или он также будет помечен, out
что вызовет переназначение PG из этого OSD, он будет опустошен. Теперь восстановление одной службы в течение 5 минут звучит не так уж плохо, но если вам нужно вернуть целый сервер с несколькими OSD, это может занять гораздо больше времени. Но при низком mon_osd_down_out_interval
значении это может привести к «колебанию OSD», вызывая гораздо больше проблем в кластере. Я предполагаю, что это было главной причиной увеличения значения по умолчанию до 10 минут.
С другой стороны, если ваш кластер достаточно большой, а правила аварийного отключения и реплики настроены разумно, вы должны быть в состоянии потерять несколько OSD, и клиенты этого не заметят. По сути, администратор кластера должен прочувствовать возможные сценарии, поскольку это также зависит от фактического оборудования. У меня есть клиент, серверам которого требуется 15 или более минут для перезагрузки. Теперь представьте сбой ядра или что-то еще, что вызывает перезагрузку, сервер не вернется в течение интервала, приводящего к массовому переназначению. Эти случаи можно лучше контролировать с помощью скорректированного mon_osd_down_out_interval.