
我們有一個正在運行的 api,它每天接收一次插入 mongodb 中的多批大資料。我們使用cvallance/mongo-k8s-sidecar
複製集配置
這在本地 mongo 資料庫上完美運行。
資料庫上也沒有生產流量,可能會引發條件等問題。
現在我們將其部署到谷歌容器引擎。一般情況下,導入也可以進行。但有時我們會遇到這樣的超時異常:
無法運行 replSetReconfig,因為節點目前正在更新其配置
或者
MongoDB.Driver.MongoCommandException:指令插入失敗:BSONObj 大小:16793637 (0x1004025) 無效。大小必須介於 0 和 16793600(16MB) 之間 第一個元素:插入:「LandingPageConnectionSet_Stage」。
或者
工作循環中的錯誤{MongoError:連接0到127.0.0.1:27017在Function.MongoError.create處逾時(/opt/cvallance/mongo-k8s-sidecar/node_modules/mongodb-core/lib/error.js:29: 11)在套接字。 (/opt/cvallance/mongo-k8s-sidecar/node_modules/mongodb-core/lib/connection/connection.js:198:20) 在 Object.onceWrapper (events.js:254:19) 在 Socket.emit (events. js:159:13) 在Socket._onTimeout (net.js:411:8) 在ontimeout (timers.js:478:11) 在tryOnTimeout (timers.js:302:5) 在Timer.listOnTimeout (timers.js: 262:5)
我可以看到CPU似乎沒有達到極限。
mongodb 的 Kubernetes 配置
---
kind: StorageClass
apiVersion: storage.k8s.io/v1
metadata:
name: fast
provisioner: kubernetes.io/gce-pd
parameters:
type: pd-ssd
---
apiVersion: v1
kind: Service
metadata:
name: mongo
labels:
name: mongo
spec:
ports:
- port: 27017
targetPort: 27017
clusterIP: None
selector:
role: mongo
---
apiVersion: apps/v1beta1
kind: StatefulSet
metadata:
name: mongo
spec:
serviceName: "mongo"
replicas: 3
template:
metadata:
labels:
role: mongo
environment: test
spec:
terminationGracePeriodSeconds: 10
containers:
- name: mongo
image: mongo:3.6
command:
- mongod
- "--replSet"
- rs0
- "--bind_ip"
- 0.0.0.0
- "--smallfiles"
- "--noprealloc"
ports:
- containerPort: 27017
volumeMounts:
- name: mongo-persistent-storage
mountPath: /data/db
- name: mongo-sidecar
image: cvallance/mongo-k8s-sidecar
env:
- name: MONGO_SIDECAR_POD_LABELS
value: "role=mongo,environment=test"
volumeClaimTemplates:
- metadata:
name: mongo-persistent-storage
annotations:
volume.beta.kubernetes.io/storage-class: "fast"
spec:
accessModes: [ "ReadWriteOnce" ]
resources:
requests:
storage: 32Gi
我們還透過限制wiretiger快取大小並刪除小檔案選項對配置進行了很少的更改,因此配置中的部分如下所示:
- mongod
- "--replSet"
- rs0
- "--bind_ip"
- 0.0.0.0
- "--noprealloc"
- "--wiredTigerCacheSizeGB"
- "1.5"
答案1
我使用 Boas Enkler 檢查了日誌和 kubernetes 儀表板。
在 Kubernetes 儀表板中有關 POD 狀態的提示如下:
Pod Name: kube-lego-*****-***
Status: Evicted
Reason: The node was low on resource: memory.
您可以透過以下方式檢索到完全相同的信息kubectl describe pod [podname]
請注意,引用文件:“如果 kubelet 無法回收節點上足夠的資源,kubelet 就會開始驅逐 Pod。”
因此,我相信 Mongodb 存在錯誤,因為它在本地運行沒有任何問題,為了仔細檢查,我們檢查了控制台串行輸出顯示的內核日誌,我們發現:
Memory cgroup out of memory: Kill process 4**7 (mongod) score 1494 or sacrifice child
...
Memory cgroup out of memory: Kill process 1**8 (mongod) score 1538 or sacrifice child
我們也注意到部署的 YAML 檔案中沒有記憶體請求欄位。這是一個問題,因為即使有三個沒有工作負載的節點,所有 POD 也可能在同一個節點上啟動,因為理論上它們是合適的。
為了減輕這種行為,有一些可能的解決方案:
垂直擴展集群並引入記憶體請求值
指導mongodb 進程消耗的記憶體量小於請求的記憶體量。
如果您有更多容器在同一節點上運行並且您希望避免它們被殺死,那麼引入記憶體限制是必不可少的。考慮一下,透過這種方式,即使節點上仍然有可用內存,有時它也會被殺死。