
Rocky9에서 ceph-ansible을 사용하여 Ceph Quincy를 배포하려고 합니다. 몇 가지 문제가 발생했는데 원인을 어디서 검색해야 할지 모르겠습니다.
추신: 동일한 하드웨어에서 Pacific 버전용 ceph-ansible을 사용하여 Rocky8에서 동일한 배포를 수행했는데 완벽하게 작동했습니다.
mon, mgr, mdss 및 rgws라는 03개의 컨트롤러 노드가 있습니다. 27개의 osd 노드: 각각 04개의 nvme 디스크(osd)가 있습니다. 점보 프레임이 포함된 10Gb 네트워크를 사용하고 있습니다.
문제 없이 배포가 시작되고 03 모니터가 올바르게 생성된 다음 03 관리자가 생성되고 OSD가 준비 및 포맷된 후 여기까지는 모든 것이 제대로 작동하지만 "모든 osd가 작동할 때까지 대기" 작업이 수행되는 경우 즉, 모든 OSD 노드에서 모든 OSD 컨테이너가 시작되고, 상황이 잘못되고, 모니터가 쿼럼을 벗어나고, ceph -s가 응답하는 데 많은 시간이 걸리고 모든 OSD가 활성화되지 않고 결국 배포가 실패함을 의미합니다. .
cluster 2023-03-06T12:00:26.431947+0100 mon.controllera (mon.0) 3864 : cluster [WRN] [WRN] MON_DOWN: 1/3 mons down, quorum controllera,controllerc
cluster 2023-03-06T12:00:26.431953+0100 mon.controllera (mon.0) 3865 : cluster [WRN] mon.controllerb (rank 1) addr [v2:20.1.0.27:3300/0,v1:20.1.0.27:6789/0] is down (out of quorum)
내 컨트롤러 노드 중 2개의 모니터 컨테이너가 CPU 사용률 100%를 유지합니다.
CONTAINER ID NAME CPU % MEM USAGE / LIMIT MEM % NET I/O BLOCK I/O PIDS
068e4e55f299 ceph-mon-controllera 99.91% 58.12MiB / 376.1GiB 0.02% 0B / 0B 122MB / 85.3MB 28 <--------
87730f89420d ceph-mgr-controllera 0.32% 408.2MiB / 376.1GiB 0.11% 0B / 0B 181MB / 0B 35
리소스 문제일까요? 모니터 컨테이너에 시작 중인 모든 OSD를 처리할 CPU, RAM 등의 리소스가 부족합니까? 그렇다면 이것을 어떻게 찾을 수 있습니까? 어떻게 수정할 수 있나요?
미리 감사드립니다.
문안 인사.