7.2. Ceph
CephFS 上扩展集群的性能不佳
具有许多小元数据操作的工作负载可能会因为在多站点 Data Foundation 集群上放置元数据服务器(MDS)造成性能不佳。
SELinux 重新标记问题,带有大量文件
当将卷附加到 Red Hat OpenShift Container Platform 中的 pod 时,pod 有时无法启动或需要很长时间才能启动。这个行为是通用的,它绑定到 Kubelet 处理 SELinux 重新标记的方式。对于任何基于文件系统的卷,会发现这个问题。在 OpenShift Data Foundation 中,使用基于 CephFS 的卷和大量文件时会出现此问题。解决此问题的方法有多种。根据您的业务需求,您可以从知识库解决方案 https://access.redhat.com/solutions/6221251 中选择一个临时解决方案。
运行崩溃或关闭测试后 Ceph 无法访问
在扩展集群中,当 monitor 被 revived 且处于其他 monitor 的探测阶段时,无法接收最新的信息,如
monitorMap
或OSDMap
,它无法在 probing 阶段进入stretch_mode
。这可防止它正确设置 elector 的disallowed_leaders
列表。假设 revived monitor 实际上具有最佳分数,它认为它最好是当前选举循环中的领导者,并会导致 monitor 的选举阶段卡住。因为它会持续推出自己,但会因为
disallowed_leaders
列表被 surviving monitor 拒绝。这会导致 monitor 处于选举状态,Ceph 最终会变得无响应。要解决这个问题,当处于选举状态且 Ceph 变得无响应时,使用以下命令重置每个 monitor 的连接分数:
`ceph daemon mon.{name} connection scores reset`
`ceph daemon mon.{name} connection scores reset`
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 如果这不起作用,请逐一重新启动 monitor。选举随后将被解放,监视器将能够选举领导机,形成仲裁,Ceph 将再次响应。
Ceph 在工作负载部署后
没有报告活跃 mgr
在工作负载部署后,Ceph 管理器丢失了与 MON 的连接,或者无法响应其存活度探测。
这会导致 ODF 集群状态报告是否有 "no active mgr"。这会导致多个使用 Ceph 管理器请求处理的操作失败。例如,卷调配、创建 CephFS 快照等。
要检查 ODF 集群的状态,请使用
oc get cephcluster -n openshift-storage
命令。在状态输出中,如果集群有此问题,status.ceph.details.MGR_DOWN
字段将具有消息 "no active mgr"。要解决这个问题,请使用以下命令重启 Ceph 管理器 pod:
oc scale deployment -n openshift-storage rook-ceph-mgr-a --replicas=0
# oc scale deployment -n openshift-storage rook-ceph-mgr-a --replicas=0
Copy to Clipboard Copied! Toggle word wrap Toggle overflow oc scale deployment -n openshift-storage rook-ceph-mgr-a --replicas=1
# oc scale deployment -n openshift-storage rook-ceph-mgr-a --replicas=1
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 运行这些命令后,ODF 集群状态会报告一个健康的集群,没有有关
MGR_DOWN
的警告或错误。
当 StorageCluster 中使用自定义 deviceClass 时,CephBlockPool 创建会失败
由于一个已知问题,当 StorageCluster 中使用自定义 deviceClass 时,CephBlockPool 创建会失败。