ceph에서 mon osd down에 대한 권장 값

ceph에서 mon osd down에 대한 권장 값

"mon osd down out"에 권장되는 값이 있습니까? 클러스터에는 15개의 노드와 300개의 OSD가 있습니다. 세프쥬얼(ceph Jewl)을 실행하고 있습니다.

Jewel의 기본값은 300초입니다. 기본값을 변경하면 어떤 이점이나 단점이 있는지 궁금합니다.

답변1

기본값은 600초로 늘어났는데, 어느 릴리스 이후인지는 모르겠습니다. 값을 변경하는 것은 현재 구성에 문제가 발생한 경우에만 의미가 있습니다. noout서버가 다운될 때(또는 단일 OSD) 재조정을 방지하기 위해 플래그를 설정해야 하는 계획된 유지 관리 외에도 서버에 발생할 수 있는 많은 일이 있습니다 . 예를 들어 OSD는 어떤 이유로든 실패할 수 있으며 표시됩니다 down. 그런 다음 현재 구성을 사용하면 다시 시작하는 데 5분이 걸리거나 out해당 OSD에서 PG 재매핑을 트리거하는 것으로 표시되어 소모됩니다. 이제 5분 이내에 단일 서비스를 백업하는 것이 그렇게 나쁘지는 않지만 여러 OSD가 포함된 전체 서버를 다시 가져와야 하는 경우 시간이 훨씬 더 오래 걸릴 수 있습니다. 그러나 값이 낮으면 mon_osd_down_out_interval"플래핑 OSD"가 발생하여 클러스터에 더 많은 문제가 발생할 수 있습니다. 이것이 기본값을 10분으로 늘린 주된 이유라고 생각합니다.

반면에 클러스터가 충분히 크고 크러시 규칙과 복제본이 합리적으로 구성된 경우 클라이언트가 눈치채지 못하는 사이에 OSD 몇 개가 손실될 수 있습니다. 실제 하드웨어에 따라 달라지기 때문에 가능한 시나리오에 대한 느낌을 얻는 것은 기본적으로 클러스터 관리자의 몫입니다. 서버를 재부팅하는 데 15분 이상이 필요한 고객이 있습니다. 이제 커널 충돌이나 재부팅을 유발하는 상황을 상상해 보십시오. 서버는 대규모 재매핑으로 이어지는 간격 내에 다시 돌아오지 않을 것입니다. 이러한 경우는 조정된 mon_osd_down_out_interval을 사용하여 더 잘 제어할 수 있습니다.

관련 정보