7.2. Ceph
CephFS 上扩展集群的性能不佳
具有许多小元数据操作的工作负载可能会因为在多站点 Data Foundation 集群上放置元数据服务器(MDS)造成性能不佳。
SELinux 重新标记问题,带有大量文件
当将卷附加到 Red Hat OpenShift Container Platform 中的 pod 时,pod 有时无法启动或需要很长时间才能启动。这个行为是通用的,它绑定到 Kubelet 处理 SELinux 重新标记的方式。对于任何基于文件系统的卷,会发现这个问题。在 OpenShift Data Foundation 中,使用基于 CephFS 的卷和大量文件时会出现此问题。解决此问题的方法有多种。根据您的业务需求,您可以从知识库解决方案 https://access.redhat.com/solutions/6221251 中选择一个临时解决方案。
运行崩溃或关闭测试后 Ceph 无法访问
在扩展集群中,当 monitor 被 revived 且处于其他 monitor 的探测阶段时,无法接收最新的信息,如
monitorMap
或OSDMap
,它无法在 probing 阶段进入stretch_mode
。这可防止它正确设置 elector 的disallowed_leaders
列表。假设 revived monitor 实际上具有最佳分数,它认为它最好是当前选举循环中的领导者,并会导致 monitor 的选举阶段卡住。因为它会持续推出自己,但会因为
disallowed_leaders
列表被 surviving monitor 拒绝。这会导致 monitor 处于选举状态,Ceph 最终会变得无响应。要解决这个问题,当处于选举状态且 Ceph 变得无响应时,使用以下命令重置每个 monitor 的连接分数:
`ceph daemon mon.{name} connection scores reset`
如果这不起作用,请逐一重新启动 monitor。选举随后将被解放,监视器将能够选举领导机,形成仲裁,Ceph 将再次响应。
Ceph 在工作负载部署后
没有报告活跃 mgr
在工作负载部署后,Ceph 管理器丢失了与 MON 的连接,或者无法响应其存活度探测。
这会导致 ODF 集群状态报告是否有 "no active mgr"。这会导致多个使用 Ceph 管理器请求处理的操作失败。例如,卷调配、创建 CephFS 快照等。
要检查 ODF 集群的状态,请使用
oc get cephcluster -n openshift-storage
命令。在状态输出中,如果集群有此问题,status.ceph.details.MGR_DOWN
字段将具有消息 "no active mgr"。要解决这个问题,请使用以下命令重启 Ceph 管理器 pod:
# oc scale deployment -n openshift-storage rook-ceph-mgr-a --replicas=0
# oc scale deployment -n openshift-storage rook-ceph-mgr-a --replicas=1
运行这些命令后,ODF 集群状态会报告一个健康的集群,没有有关
MGR_DOWN
的警告或错误。
当 StorageCluster 中使用自定义 deviceClass 时,CephBlockPool 创建会失败
由于一个已知问题,当 StorageCluster 中使用自定义 deviceClass 时,CephBlockPool 创建会失败。