7.3. Ceph
CephFS 上扩展集群的性能不佳
具有许多小元数据操作的工作负载可能会因为在多站点 Data Foundation 集群上放置元数据服务器(MDS)造成性能不佳。
SELinux 重新标记问题,带有大量文件
当将卷附加到 Red Hat OpenShift Container Platform 中的 pod 时,pod 有时无法启动或需要很长时间才能启动。这个行为是通用的,它绑定到 Kubelet 处理 SELinux 重新标记的方式。对于任何基于文件系统的卷,会发现这个问题。在 OpenShift Data Foundation 中,使用基于 CephFS 的卷和大量文件时会出现此问题。解决此问题的方法有多种。根据您的业务需求,您可以从知识库解决方案 https://access.redhat.com/solutions/6221251 中选择一个临时解决方案。
Ceph 在工作负载部署后
没有报告活跃 mgr
在工作负载部署后,Ceph 管理器丢失了与 MON 的连接,或者无法响应其存活度探测。
这会导致 OpenShift Data Foundation 集群状态报告有 "no active mgr"。这会导致多个使用 Ceph 管理器请求处理的操作失败。例如,卷调配、创建 CephFS 快照等。
要检查 OpenShift Data Foundation 集群的状态,请使用
oc get cephcluster -n openshift-storage
命令。在状态输出中,如果集群有此问题,status.ceph.details.MGR_DOWN
字段将具有消息 "no active mgr"。临时解决方案:使用以下命令重启 Ceph 管理器 pod:
# oc scale deployment -n openshift-storage rook-ceph-mgr-a --replicas=0
# oc scale deployment -n openshift-storage rook-ceph-mgr-a --replicas=1
运行这些命令后,OpenShift Data Foundation 集群状态会报告一个健康的集群,没有与
MGR_DOWN
相关的警告或错误。