在 Rocky 9 上使用 ceph-ansible 7 部署 Ceph Quincy 時發生錯誤

在 Rocky 9 上使用 ceph-ansible 7 部署 Ceph Quincy 時發生錯誤

我正在嘗試在 Rocky9 上使用 ceph-ansible 部署 Ceph Quincy。我遇到了一些問題,我不知道在哪裡找原因。

PS:我在同一硬體上使用太平洋版本的 ceph-ansible 在 Rocky8 上進行了相同的部署,並且運作良好。

我有 03 個控制器節點:mon、mgr、mdss 和 rgws。以及 27 個 osd 節點:每個節點有 04 個 nvme 磁碟 (osd)。我正在使用帶有巨型幀的 10Gb 網路。

部署開始時沒有任何問題,正確創建了 03 個監視器,然後創建了 03 個管理器,之後準備並格式化了 OSD,直到這裡一切正常,但是當“等待所有 osd 啟動”任務時啟動,這意味著啟動所有OSD 節點中的所有OSD 容器,情況會變糟,監視器超出法定人數,ceph -s 需要大量時間來回應,並且並非所有OSD 都被激活,最後部署失敗。

cluster 2023-03-06T12:00:26.431947+0100 mon.controllera (mon.0) 3864 : cluster [WRN] [WRN] MON_DOWN: 1/3 mons down, quorum controllera,controllerc 
cluster 2023-03-06T12:00:26.431953+0100 mon.controllera (mon.0) 3865 : cluster [WRN]     mon.controllerb (rank 1) addr [v2:20.1.0.27:3300/0,v1:20.1.0.27:6789/0] is down (out of quorum)

我的 2 個控制器節點中的監視器容器的 CPU 使用率保持在 100%。

CONTAINER ID   NAME                   CPU %     MEM USAGE / LIMIT     MEM %     NET I/O   BLOCK I/O        PIDS
068e4e55f299   ceph-mon-controllera   99.91%    58.12MiB / 376.1GiB   0.02%     0B / 0B   122MB / 85.3MB   28  <--------
87730f89420d   ceph-mgr-controllera   0.32%     408.2MiB / 376.1GiB   0.11%     0B / 0B   181MB / 0B       35

這會是資源問題嗎?監視器容器沒有足夠的 CPU、RAM 等資源來處理所有正在啟動的 OSD?如果是的話我怎麼才能找到這個?我該如何糾正它?

提前致謝。

問候。

相關內容