Rocky 9에서 ceph-ansible 7을 사용하여 Ceph Quincy를 배포하는 중 오류가 발생했습니다.

Rocky 9에서 ceph-ansible 7을 사용하여 Ceph Quincy를 배포하는 중 오류가 발생했습니다.

Rocky9에서 ceph-ansible을 사용하여 Ceph Quincy를 배포하려고 합니다. 몇 가지 문제가 발생했는데 원인을 어디서 검색해야 할지 모르겠습니다.

추신: 동일한 하드웨어에서 Pacific 버전용 ceph-ansible을 사용하여 Rocky8에서 동일한 배포를 수행했는데 완벽하게 작동했습니다.

mon, mgr, mdss 및 rgws라는 03개의 컨트롤러 노드가 있습니다. 27개의 osd 노드: 각각 04개의 nvme 디스크(osd)가 있습니다. 점보 프레임이 포함된 10Gb 네트워크를 사용하고 있습니다.

문제 없이 배포가 시작되고 03 모니터가 올바르게 생성된 다음 03 관리자가 생성되고 OSD가 준비 및 포맷된 후 여기까지는 모든 것이 제대로 작동하지만 "모든 osd가 작동할 때까지 대기" 작업이 수행되는 경우 즉, 모든 OSD 노드에서 모든 OSD 컨테이너가 시작되고, 상황이 잘못되고, 모니터가 쿼럼을 벗어나고, ceph -s가 응답하는 데 많은 시간이 걸리고 모든 OSD가 활성화되지 않고 결국 배포가 실패함을 의미합니다. .

cluster 2023-03-06T12:00:26.431947+0100 mon.controllera (mon.0) 3864 : cluster [WRN] [WRN] MON_DOWN: 1/3 mons down, quorum controllera,controllerc 
cluster 2023-03-06T12:00:26.431953+0100 mon.controllera (mon.0) 3865 : cluster [WRN]     mon.controllerb (rank 1) addr [v2:20.1.0.27:3300/0,v1:20.1.0.27:6789/0] is down (out of quorum)

내 컨트롤러 노드 중 2개의 모니터 컨테이너가 CPU 사용률 100%를 유지합니다.

CONTAINER ID   NAME                   CPU %     MEM USAGE / LIMIT     MEM %     NET I/O   BLOCK I/O        PIDS
068e4e55f299   ceph-mon-controllera   99.91%    58.12MiB / 376.1GiB   0.02%     0B / 0B   122MB / 85.3MB   28  <--------
87730f89420d   ceph-mgr-controllera   0.32%     408.2MiB / 376.1GiB   0.11%     0B / 0B   181MB / 0B       35

리소스 문제일까요? 모니터 컨테이너에 시작 중인 모든 OSD를 처리할 CPU, RAM 등의 리소스가 부족합니까? 그렇다면 이것을 어떻게 찾을 수 있습니까? 어떻게 수정할 수 있나요?

미리 감사드립니다.

문안 인사.

관련 정보