
Rocky9 で ceph-ansible を使用して Ceph Quincy をデプロイしようとしています。いくつか問題が発生していますが、原因をどこで調べればよいかわかりません。
PS: 同じハードウェア上の Pacific バージョンの ceph-ansible を使用して Rocky8 に同じデプロイメントを実行しましたが、完璧に動作しました。
コントローラー ノードが 3 つあります: mon、mgr、mdss、rgws。osd ノードが 27 個あり、それぞれに 4 つの nvme ディスク (osd) があります。ジャンボ フレーム付きの 10Gb ネットワークを使用しています。
デプロイメントは問題なく開始され、03 モニターが正しく作成され、次に 03 マネージャーが作成され、その後 OSD が準備されフォーマットされ、ここまではすべて正常に動作していますが、「すべての OSD が起動するまで待機」タスクが起動すると (つまり、すべての OSD ノードですべての OSD コンテナーが起動すると)、状況が悪化し、モニターがクォーラム不足になり、ceph -s の応答に時間がかかり、すべての OSD がアクティブ化されず、最後にデプロイメントが失敗します。
cluster 2023-03-06T12:00:26.431947+0100 mon.controllera (mon.0) 3864 : cluster [WRN] [WRN] MON_DOWN: 1/3 mons down, quorum controllera,controllerc
cluster 2023-03-06T12:00:26.431953+0100 mon.controllera (mon.0) 3865 : cluster [WRN] mon.controllerb (rank 1) addr [v2:20.1.0.27:3300/0,v1:20.1.0.27:6789/0] is down (out of quorum)
コントローラー ノードの 2 つにあるモニター コンテナーの CPU 使用率が 100% のままです。
CONTAINER ID NAME CPU % MEM USAGE / LIMIT MEM % NET I/O BLOCK I/O PIDS
068e4e55f299 ceph-mon-controllera 99.91% 58.12MiB / 376.1GiB 0.02% 0B / 0B 122MB / 85.3MB 28 <--------
87730f89420d ceph-mgr-controllera 0.32% 408.2MiB / 376.1GiB 0.11% 0B / 0B 181MB / 0B 35
これはリソースの問題でしょうか? モニター コンテナーには、起動されているすべての OSD を処理するのに十分なリソース (CPU、RAM など) がありません。そうであれば、どうすればこれを見つけることができますか? また、どうすれば修正できますか?
前もって感謝します。
よろしくお願いいたします。