Рекомендуемые значения для mon OSD down out в ceph

Question

Значение по умолчанию было увеличено до 600 секунд, я просто не знаю, с какого релиза. Изменение значения имеет смысл только в том случае, если у вас возникли проблемы с текущей конфигурацией. Есть много вещей, которые могут произойти с сервером, помимо планового обслуживания, когда вы (должны) установить флаг, nooutчтобы предотвратить повторную балансировку, когда сервер отключен (или отдельные OSD). Например, OSD может выйти из строя по любой причине и помечается down. Затем с вашей текущей конфигурацией у него есть 5 минут, чтобы снова подняться, или он также будет помечен, outчто вызовет переназначение PG из этого OSD, он будет опустошен. Теперь восстановление одной службы в течение 5 минут звучит не так уж плохо, но если вам нужно вернуть целый сервер с несколькими OSD, это может занять гораздо больше времени. Но при низком mon_osd_down_out_intervalзначении это может привести к «колебанию OSD», вызывая гораздо больше проблем в кластере. Я предполагаю, что это было главной причиной увеличения значения по умолчанию до 10 минут.

С другой стороны, если ваш кластер достаточно большой, а правила аварийного отключения и реплики настроены разумно, вы должны быть в состоянии потерять несколько OSD, и клиенты этого не заметят. По сути, администратор кластера должен прочувствовать возможные сценарии, поскольку это также зависит от фактического оборудования. У меня есть клиент, серверам которого требуется 15 или более минут для перезагрузки. Теперь представьте сбой ядра или что-то еще, что вызывает перезагрузку, сервер не вернется в течение интервала, приводящего к массовому переназначению. Эти случаи можно лучше контролировать с помощью скорректированного mon_osd_down_out_interval.

Answer 1

Значение по умолчанию было увеличено до 600 секунд, я просто не знаю, с какого релиза. Изменение значения имеет смысл только в том случае, если у вас возникли проблемы с текущей конфигурацией. Есть много вещей, которые могут произойти с сервером, помимо планового обслуживания, когда вы (должны) установить флаг, nooutчтобы предотвратить повторную балансировку, когда сервер отключен (или отдельные OSD). Например, OSD может выйти из строя по любой причине и помечается down. Затем с вашей текущей конфигурацией у него есть 5 минут, чтобы снова подняться, или он также будет помечен, outчто вызовет переназначение PG из этого OSD, он будет опустошен. Теперь восстановление одной службы в течение 5 минут звучит не так уж плохо, но если вам нужно вернуть целый сервер с несколькими OSD, это может занять гораздо больше времени. Но при низком mon_osd_down_out_intervalзначении это может привести к «колебанию OSD», вызывая гораздо больше проблем в кластере. Я предполагаю, что это было главной причиной увеличения значения по умолчанию до 10 минут.

С другой стороны, если ваш кластер достаточно большой, а правила аварийного отключения и реплики настроены разумно, вы должны быть в состоянии потерять несколько OSD, и клиенты этого не заметят. По сути, администратор кластера должен прочувствовать возможные сценарии, поскольку это также зависит от фактического оборудования. У меня есть клиент, серверам которого требуется 15 или более минут для перезагрузки. Теперь представьте сбой ядра или что-то еще, что вызывает перезагрузку, сервер не вернется в течение интервала, приводящего к массовому переназначению. Эти случаи можно лучше контролировать с помощью скорректированного mon_osd_down_out_interval.

Рекомендуемые значения для mon OSD down out в ceph

решение1

Связанный контент