4.14 发行注记


Red Hat OpenShift Data Foundation 4.14

功能增强、已知问题和其它重要发行信息的发行注记。

Red Hat Storage Documentation Team

摘要

本发行注记介绍了 Red Hat OpenShift Data Foundation 4.14 的新功能、功能增强、重要的技术更改,以及所有已知问题。

使开源包含更多

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。我们从这四个术语开始:master、slave、黑名单和白名单。由于此项工作十分艰巨,这些更改将在即将推出的几个发行版本中逐步实施。有关更多详情,请参阅我们的首席技术官 Chris Wright 提供的消息

第 1 章 概述

Red Hat OpenShift Data Foundation 是为容器环境优化的软件定义型存储。它在 OpenShift Container Platform 上作为操作器运行,为容器提供高度集成和简化的持久性存储管理。

Red Hat OpenShift Data Foundation 集成到最新的 Red Hat OpenShift Container Platform 中,用于解决平台服务、应用程序可移植性和持久性挑战。它为下一代云原生应用程序提供了高度可扩展的后端,它基于包括 Red Hat Ceph Storage、Rook.io Operator 和 NooBaa 的多云对象网关技术。

Red Hat OpenShift Data Foundation 为 FIPS 设计。当在 RHEL 或 RHEL CoreOS 中以 FIPS 模式运行时,OpenShift Container Platform 核心组件只使用在 x86_64、ppc64le 和 s390X 架构上提交到 NIST 的 RHEL 加密库。有关 NIST 验证程序的更多信息,请参阅加密模块验证程序。有关为验证提交的 RHEL 加密库的单独版本的最新 NIST 状态,请参阅 Compliance Activities 和 Government Standards

Red Hat OpenShift Data Foundation 提供了一个可信的企业级应用程序开发环境,它以多种方式简化并增强应用程序生命周期的用户体验:

  • 为数据库提供块存储。
  • 用于持续集成、消息传递和数据聚合的共享存储。
  • 用于云环境开发、存档、备份和媒体存储的对象存储。
  • 可适用于以指数级增长的应用程序和数据。
  • 以更快的速度附加和分离持久性卷。
  • 跨多个数据中心或可用区扩展集群。
  • 建立全面的应用程序容器 registry。
  • 支持下一代 OpenShift 工作负载,如数据分析、智能 Intelligence、机器学习、经济学和物联网(IoT)。
  • 动态置备应用程序容器,以及数据服务卷和容器,以及额外的 OpenShift Container Platform 节点、Elastic Block Store(EBS)卷和其他基础架构服务。

1.1. 关于此版本

Red Hat OpenShift Data Foundation 4.14 (RHSA-2023:6832)现已正式发布。OpenShift Data Foundation 4.14 的新功能、以及已知的问题包括在此文档中。

Red Hat OpenShift Data Foundation 4.14 在 Red Hat OpenShift Container Platform 版本 4.14 上被支持。如需更多信息,请参阅 Red Hat OpenShift Data Foundation Supportability and Interoperability Checker

对于 Red Hat OpenShift Data Foundation 生命周期信息,请参阅 Red Hat OpenShift Container Platform 生命周期政策中的分层和依赖产品生命周期部分。

第 2 章 新功能

本节介绍了 Red Hat OpenShift Data Foundation 4.14 中引入的新功能。

2.1. 区域灾难恢复正式发布

区域灾难恢复 (Regional-DR) 通常可用于块和文件应用程序。本发行版本中对 Regional-DR 的改进包括以下修复其他修复:

  • Ceph 的改进,启用大规模部署 Regional-DR
  • 使用 ACM UI 为块和文件应用程序管理 DR
  • 使用新的 DR 指标监控

Regional-DR 仅支持 OpenShift Data Foundation 4.14 和 Red Hat Advanced Cluster Management for Kubernetes 2.9 组合。对现有 OpenShift Data Foundation 4.14 部署升级到 Regional-DR 的支持当前正在进行中,并预计在不久的将来可用。

如需更多信息,请参阅规划指南中的 Regional-DR 部分OpenShift Data Foundation 的 Regional-DR 解决方案

2.2. IPv6 自动检测

Red Hat OpenShift Data Foundation 版本 4.14 引入了 IPv6 自动检测和配置。使用 IPv6 或双栈的 OpenShift 集群会相应地在 OpenShift Data Foundation 中配置。

有关 IPv6 的更多信息,请参阅 IPv6 支持

2.3. 支持 IBM Z 和 IBM Power 上的 OpenShift Data Foundation 的 Metro-DR 和 Regional-DR 解决方案

Red Hat OpenShift Data Foundation 版本 4.14 现在支持 IBM Z 和 IBM Power 平台上的 Metro-DR 和 Regional-DR 解决方案。随着灾难恢复的启用,当任何灾难到达地理位置或数据中心时,会保持业务连续性。Red Hat Ceph Storage (RHCS) 部署只在 IBM Z 和 IBM Power 上的 x86 架构上被支持。

如需更多信息,请参阅为 OpenShift Workloads 配置 OpenShift Data Foundation 灾难恢复

2.4. 基于日志的存储桶复制

在这个版本中,多云对象网关(MCG)存储桶复制可扩展。这有助于大规模更快地复制数据。桶复制使用 Amazon Web Services (AWS) 和 Microsoft Azure 云环境的事件日志来优化复制。

如需更多信息,请参阅在 AWS 中启用基于日志的存储桶复制,并在 Microsoft Azure 中启用基于日志的存储桶复制

2.5. 多云对象网关端点的自动扩展支持

在这个版本中,有两个基于 HPAV2 (默认)和 KEDA 的新自动扩展器。这些自动扩展器支持使用 Prometheus 指标进行 MCG 端点自动扩展。

IBM Power 不支持 KEDA,因为 Power 架构不支持 KEDA 镜像。

2.6. 在 Multicloud Object Gateway 生命周期中删除过期的对象

删除已过期的对象是简化处理未使用的数据的方法。由于数据对象累计,这可以降低存储成本。未使用的数据会在过期后删除。数据过期是 Amazon Web Services (AWS) 生命周期管理的一部分,并为自动删除设置过期日期。生命周期过期时间的最短时间仅为一天。

如需更多信息,请参阅多云对象网关中的生命周期存储桶配置

2.7. 支持独立多云对象网关

在这个版本中,您可以使用 IBM Z 上的本地存储设备部署 Multicloud 对象网关组件。仅使用 OpenShift Data Foundation 部署多云对象网关组件提供了部署的灵活性,并有助于减少资源消耗。

2.8. 多网络插件 (Multus) 支持的正式发布

在这个版本中,多网络插件 Multus 已正式发布。OpenShift Data Foundation 支持在裸机基础架构上使用 Multus,通过隔离不同类型的网络流量来提高安全性和性能。通过使用 Multus,主机上一个或多个网络接口可能会保留来独占使用 OpenShift Data Foundation。

2.9. Google Cloud 正式发布(GA)支持

现在,在 Google Cloud 上支持部署 OpenShift Data Foundation。如需更多信息,请参阅使用 Google Cloud 部署 OpenShift Data Foundation 指南

第 3 章 功能增强

这部分论述了 Red Hat OpenShift Data foundation 4.14 中引入的主要改进。

3.1. 支持更高的磁盘容量和磁盘数量

在以前的版本中,对于本地存储部署,红帽建议每个节点 9 个或更少的设备,磁盘大小为 4 TiB 或更少。在这个版本中,建议每个节点有 12 个或更少的设备,磁盘大小为 16 TiB 或更少。

注意

使用 OpenShift Data Foundation Recovery Calculator 确认预计的恢复时间。建议主机无法达到 2 小时的恢复时间。

3.2. 在节点失败时更快地恢复 RWO

在以前的版本中,在节点失败时,ReadWriterOnce (RWO) 卷需要很长时间才能恢复。在这个版本中,这个问题已被解决。

要使集群自动解决节点故障并更快地恢复 RWO 卷,请手动将以下污点之一添加到节点:

  • node.kubernetes.io/out-of-service=nodeshutdown:NoExecute
  • node.kubernetes.io/out-of-service=nodeshutdown:NoSchedule

3.3. 为 RBD 持久性卷声明 PVC 重新声明空间

Red Hat OpenShift Data Foundation 版本 4.14 引入了对以 openshift- 开始的命名空间中 RBD 持久性卷声明 PVC 的自动空间回收。这意味着,管理员不再需要为以 openshift- 前缀开头的命名空间中的 RBD PVC 手动回收空间。

3.4. 对加密的 RBD 存储类进行自动化

当 OpenShift 控制台创建启用了加密的 RADOS 块设备 (RBD) 存储类时,会自动设置注释。这可让客户数据集成 (CDI) 使用主机辅助克隆,而不是默认的智能克隆。

3.5. LSO LocalVolumeSet 和 LocalVolumeDiscovery CR 现在支持 mpath 设备类型

在这个版本中,diskmpath 设备类型可用于 LocalVolumeSet 和 LocalVolumeDiscovery CR。

3.6. 为 OpenShift Virtualization 工作负载自动检测默认 StorageClass

使用 OpenShift Virtualization 平台的 OpenShift Data Foundation 部署现在会自动创建新的 StorageClass,它可以设置为 OpenShift Virtualization 的默认存储类。这个新的 StorageClass 使用底层存储的特定预设针对 OpenShift virtualization 进行优化。

3.7. 收集所有镜像的 rbd 状态 详情

在对某些 RBD 问题进行故障排除时,RBD-images 的状态是重要信息。在这个版本中,对于 OpenShift Data Foundation 内部模式部署,odf-must-gather 包含 rbd 状态 详情,使其可以更快地对 RBD 相关问题进行故障排除。

3.8. 更改默认权限和 FSGroupPolicy

新创建的卷的权限现在默认为一个更安全的 755 而不是 777。FSGroupPolicy 现在设置为 File (超过 ODF 4.11 中的 ReadWriteOnceWithFSType)以允许应用程序访问基于 FSGroup 的卷。这包括使用 fsGroup 更改卷的权限和所有权,以匹配 pod 的 SecurityPolicy 中请求的 fsGroup 用户。

注意

由于更改权限和所有权,存在大量文件的现有卷可能需要很长时间才能挂载。

如需更多信息,请参阅此知识库解决方案

第 4 章 技术预览

这部分论述了 Red Hat OpenShift Data Foundation 4.14 中在技术预览支持限制下引入的技术预览功能。

重要

红帽产品服务级别协议(SLA)不支持技术预览功能,且其功能可能并不完善,因此红帽不建议在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。

技术预览功能提供了有限的支持范围,如客户门户网站所述: 技术预览功能支持范围

4.1. 允许存储类使用非弹性池单一副本

OpenShift Data Foundation 允许选项使用具有单个副本的非弹性池创建新的存储类。这可避免冗余数据副本,并允许在应用程序级别上进行弹性管理。

如需更多信息,请参阅客户门户网站中的平台部署指南。

4.2. 基于 OpenShift Virtualization 的工作负载的 Metro-DR 支持

现在,您可以使用 OpenShift Data Foundation 轻松设置 Metro-DR 以根据 OpenShift Virtualization 保护工作负载。

如需更多信息,请参阅知识库文章

第 5 章 开发人员预览

这部分论述了 Red Hat OpenShift Data Foundation 4.14 中引入的开发人员预览功能。

重要

开发人员预览功能可能会受开发人员预览支持限制。开发人员预览版本不应在生产环境中运行。使用开发人员预览功能部署的集群被视为开发集群,不受红帽客户门户网站问题单管理系统的支持。如果您需要开发人员预览功能的帮助,请联络 ocs-devpreview@redhat.com 邮件列表和红帽开发团队成员将根据其可用性和工作计划尽快为您提供协助。

5.1. 重新声明空间操作的自定义超时

OpenShift Data Foundation 现在允许您为重新声明空间操作设置自定义超时值。在以前的版本中,根据 RBD 卷大小及其数据模式,重新声明空间操作可能会失败,错误 context deadline exceeded。调整超时值可以避免这个错误。

如需更多信息,请参阅知识库文章 Customize timeouts for Reclaim Space Operation

5.2. 扩展加密的 RBD 卷

OpenShift Data Foundation 现在启用对加密的 RBD 持久性卷声明 (PVC) 的大小功能。

如需更多信息,请参阅知识库文章为加密的 RBD PVC 启用调整大小

5.3. IPV6 支持外部模式

OpenShift Data Foundation 现在允许用户使用 IPv6 Red Hat Ceph Storage 外部独立 Ceph 集群与 IPV6 OpenShift Container Platform 集群连接。在运行 python 脚本时,用户可以使用同一端点标志传递 IPv6 端点。

5.4. 网络文件系统支持跨命名空间的导出共享

当 OpenShift Data Foundation 用于动态创建 NFS 导出时,PersistentVolumeClaim 用于访问 pod 中的 NFS 导出。在另一个 OpenShift 命名空间中,不能立即对不同的应用程序使用相同的 NFS-export。现在,您可以创建一个可绑定到另一个 OpenShift 命名空间中的第二个 PersistentVolumeClaim 的第二个 PersistentVolume。

如需更多信息,请参阅知识库文章在命名空间间置备的 ODF 置备 NFS/PersistentVolume

5.5. 在线数据压缩

通过降低延迟和网络成本,对在线数据压缩有助于多可用区部署。如果网络带宽是性能瓶颈,则这功能会很有用。

如需更多信息,请参阅 In-transit 压缩 知识库文章。

第 6 章 程序错误修复

这部分论述了 Red Hat OpenShift Data Foundation 4.14 中引入的显著程序错误修复。

6.1. 灾难恢复

  • 阻塞列表不再会导致 pod 处于错误状态

    在以前的版本中,由于网络问题或大量过载或具有大量尾部延迟激增的集群阻止列表。因此,Pods 会停留在 CreateContainerError,并带有信息 Error: relabel failed /var/lib/kubelet/pods/cb27938e-f66f-401d-85f0-9eb5cf565ace/volumes/kubernetes.io~csi/pvc-86e7da91-29f9-4418-80a7-4ae7610bb613/mount: lsetxattr /var/lib/kubelet/pods/cb27938e-f66f-401d-85f0-9eb5cf565ace/volumes/kubernetes.io~csi/pvc-86e7da91-29f9-4418-80a7-4ae7610bb613/mount/#ib_16384_0.dblwr: read-only file system

    在这个版本中,阻止列表不再会导致 pod 处于错误状态。

    (BZ#2094320)

  • Ceph 现在识别由 Globalnet 分配的全局 IP

    在以前的版本中,Ceph 无法识别 Globalnet 分配的全局 IP,因此无法使用 Globalnet 在具有重叠服务 CIDR 的集群间配置灾难恢复解决方案。这个问题已被解决,现在灾难恢复解决方案在服务 CIDR 重叠时可以正常工作。

    (BZ#2104971)

  • 当工作负载通过或重新定位到对等集群时,PeerReady 状态不再被设置为 true,直到从中清理或重新定位的集群为止

    在以前的版本中,在启动灾难恢复(DR)操作后,当工作负载故障转移或重新定位到对等集群时,PeerReady 条件会在持续时间内最初设置为 true。把它设置为 false 后,直到从其中清理或重新定位到集群被清理或重新定位到集群以进行将来的操作。查看 DRPlacementControl 状态条件的用户可能已将这个中间 PeerReady 状态识别为对等状态,以便采取行动并执行。这会导致操作待处理或失败,并可能需要用户干预才能从中恢复。

    在这个版本中,在清理失败或重新定位工作负载前,PeerReady 状态不再被设置为 true,因此用户不再有混淆。

    (BZ#2138855)

  • 当 ACM hub 在灾难后恢复时,应用程序不再处于 Cleaningup 状态

    在以前的版本中,当 ACM hub 在灾难过程中丢失,并使用备份恢复时,VRG ManifestWork 和 DRPC 状态不会被恢复。这会导致应用程序处于 Cleaningup 状态。

    在这个版本中,Ramen 可确保 VRG ManifestWork 是 ACM 备份的一部分,并在 hub 恢复后重新创建 DRPC 状态,应用程序可以成功迁移到故障转移集群。

    (BZ#2162469)

  • 基于 STS 的应用程序现在可以按预期重新定位

    在以前的版本中,因为底层程序错误,重新定位基于 STS 的应用程序会失败。这个程序错误已被解决,重新定位基于 STS 的应用程序现在可以正常工作。

    (BZ#2224325)

  • hub 恢复后 ramen 协调

    在以前的版本中,当使用主动/被动 Hub Metro-DR 设置时,您可能会遇到罕见的场景,Ramen 协调器会在超过其允许速率限制参数后停止运行。因为协调特定于每个工作负载,因此只有该工作负载会受到影响。在这种情况下,与那个工作负载相关的所有灾难恢复编配活动停止直到 Ramen pod 重启为止。

    这个问题已被解决,在 hub 恢复后 Ramen 协调如预期。

    (BZ#2175201)

  • 在 hub 恢复过程中不会删除受管资源

    在以前的版本中,在 hub 恢复过程中,OpenShift Data Foundation 遇到 Red Hat Advanced Cluster Management 版本 2.7.4 (或更高)的已知问题,其中某些与基于订阅的工作负载关联的资源可能会被意外删除。

    这个问题已被解决,在 hub 恢复过程中不会删除受管资源。

    (BZ#2211643)

6.1.1. DR 升级

本节论述了在灾难恢复环境中将 Red Hat OpenShift Data Foundation 从版本 4.13 升级到 4.14 的程序错误修复。

  • 对于在升级前存在的工作负载,故障转移或重新定位不再被阻断

    在以前的版本中,升级前存在的工作负载阻止故障转移或重新定位。这是因为 OpenShift Data Foundation 灾难恢复解决方案除了持久性卷(PV)数据外保护持久性卷声明(PVC)数据,工作负载没有备份 PVC 数据。

    在这个版本中,在升级过程中存在的工作负载不再阻止故障转移或重新定位。

    (BZ#2229568)

  • DRPC 不再缓存不正确的值

    在以前的版本中,当 OpenShift Data Foundation 升级时,灾难恢复放置控制(DRPC)可能会有不正确的值缓存在 status.preferredDecision.ClusterNamespace。这个问题已被解决,不正确的值将不再被缓存。

    (BZ#2229567)

6.2. 多云对象网关

  • Virtual-host 风格现在包括在 NooBaa bucket 中

    在以前的版本中,Virtual-host 风格无法在 NooBaa bucket 上工作,因为 NooBaa 端点和内核不知道 DNS 配置的端口。

    在这个版本中,NooBaa 操作器将 DNS 的端口传递给核心和端点,使 Virtual-host 风格可用。

    (BZ#2183092)

  • 虚拟凭证不再输出到日志中

    在以前的版本中,dummy 凭证会被输出到日志中,这可能会导致混淆。这个程序错误已被解决,凭证将不再被打印。

    (BZ#2189866)

  • 当有限时间内没有提供凭证时,NooBaa 现在会回退到使用带有 pv-pool 的后备存储

    当云凭证 Operator 在创建云凭证请求后无法提供 secret 时,例如在安装 NooBaa 云凭证 Operator 模式之前,云凭证 Operator 模式被设置为手动模式,且不会进行额外的必要的操作。提供的 secret 包括为默认后备存储创建目标存储桶所需的凭证。这意味着,默认后备存储没有创建,Noobaa 在阶段配置中卡住。

    在这个版本中,如果发送了云凭证请求,且无法在定义的时间(10 分钟)中获取 secret,则 NooBaa 将回退到使用类型为 pv-pool 的后备存储。这意味着系统应处于 Ready 状态,默认后备存储应该类型为 pv-pool。

    (BZ#2242854)

  • PostgreSQL DB 密码不再以明文形式显示在内核和端点日志中

    在以前的版本中,noobaa-core 中的内部 Postgresql 客户端将连接参数对象输出到日志,此对象包含用于连接 Postgresql DB 的密码。

    在这个版本中,在打印到日志的连接对象中省略了密码信息,日志的信息仅包含非敏感的连接详情。

    (BZ#2240778)

6.3. Ceph 容器存储接口 (CSI)

  • 升级后,CSI CephFS 和 RBD 拥有者 Pod 不再使用旧的 cephcsi 镜像

    在以前的版本中,在升级 CSI CephFS 和 RBD 拥有者 Pod 后,它们不会被更新,因为它们使用旧的 cephcsi 镜像。

    在这个版本中,CSI CephFS 和 RBD 拥有者的 daemonset 对象也会升级,CSI 拥有者 pod 使用最新的 cephcsi 镜像。

    (BZ#2219536)

  • 更可靠和控制的重新同步过程

    在以前的版本中,resync 命令不会被有效地触发,从而导致同步问题,且无法禁用镜像镜像。这是因为 CephCSI 依赖于镜像镜像状态来发出 resync 命令,因为状态不可预测的更改。

    在这个版本中,当卷被降级时,CephCSI 会保存创建镜像的时间戳。发出 resync 命令时,CephCSI 将保存的时间戳与当前创建时间戳进行比较,只有在时间戳匹配时才会进行 resync。另外,CephCSI 检查镜像的状态以及最后一个快照时间戳,以确定是否需要重新同步,或者是否需要显示错误消息。这会产生一个更可靠且受控的重新同步过程。

    (BZ#2165941)

6.4. OpenShift Data Foundation operator(操作器)

  • 因为 S3 客户端无法在同一区与 RGW 通信,所以不再需要网络延迟

    在以前的版本中,当使用 Ceph 对象存储以及请求传输到另一个区时,不需要的网络延迟,因为 S3 客户端无法在同一区域中与 RGW 通信。

    在这个版本中,注解 "service.kubernetes.io/topology-mode" 添加到 RGW 服务中,以便请求路由到同一区域中的 RGW 服务器。因此,pod 会被路由到最接近的 RGW 服务。

    (BZ#2209098)

6.5. OpenShift Data Foundation 控制台

  • 从用户界面中删除卷类型下拉菜单

    在以前的版本中,对于内部 OpenShift Data Foundation 安装,用户界面为现有集群显示 HDD、SSD 或两者,即使内部安装应该假定磁盘是 SSD。

    在这个版本中,卷类型下拉菜单已从用户界面中删除,并且始终假定它是 SSD。

    (BZ#2239622)

  • OpenShift Data Foundation Topology rook-ceph-operator 部署现在显示正确的资源

    在以前的版本中,CSI pod 和其他 pod 的所有者引用被设置为 rook-ceph-operator,这会导致映射显示这些 pod 作为部署的一部分。

    在这个版本中,映射 pod 方法被改为 top down 而不是 bottom up,这样可确保仅显示与部署相关的 pod。

    (BZ#2209251)

  • 设置了 CSS 属性,将资源列表的高度调整为窗口大小的变化

    在以前的版本中,拓扑视图资源列表的边栏不会根据窗口大小调整其长度,因为 CSS 属性没有正确地应用到侧边栏。

    在这个版本中,CSS 属性被设置为在全屏和常规屏幕模式下动态调整资源列表的高度变化。

    (BZ#2209258)

  • 当从 LSO 移到默认存储类时,添加容量操作不再会失败

    在以前的版本中,当从 LSO 移到默认存储类时,用于添加容量操作,因为无法正确创建扩展的持久性卷(PV)。

    在这个版本中,当存储集群最初使用基于 LSO 的存储类创建时,不允许使用非LSO 存储类添加容量操作。

    (BZ#2213183)

  • OpenShift Data Foundation 拓扑的资源使用现在与指标匹配

    在以前的版本中,OpenShift Data Foundation 拓扑的资源利用率与指标不匹配,因为侧边栏用于节点和部署的资源列表中使用的指标查询不同。

    在这个版本中,指标查询相同,因此值在两个位置都相同。

    (BZ#2214033)

  • 现在禁用了外部模式的拓扑视图

    在以前的版本中,拓扑视图显示外部模式的空白屏幕,因为拓扑视图中不支持外部模式。

    在这个版本中,外部模式被禁用,并显示一条消息而不是空白屏幕。

    (BZ#2216707)

  • 拓扑不再在每个节点上显示 rook-ceph-operator

    在以前的版本中,拓扑视图显示所有节点中的 Rook-Ceph 操作器部署,因为 Rook-Ceph 操作器部署是多个 pod 的所有者,它们实际上与它无关。

    在这个版本中,拓扑视图中部署到节点的映射机制已更改,因此 Rook-Ceph 操作器部署仅在一个节点中显示。

    (BZ#2233027)

  • 控制台用户界面不再显示 SDN 而不是 OVN

    在以前的版本中,控制台用户界面显示 SDN 而不是 OVN,即使 OpenShift Container Platform 已从 SDN 移到 OVN。

    在这个版本中,文本已从 SDN 改为 OVN,因此管理网络的文本会显示 OVN。

    (BZ#2233731)

  • 资源名称必须遵循规则,"starts 和以小写或数字结尾,或者 regex 会返回错误

    在以前的版本中,由于对对象存储桶声明(OBC)的输入名称无效 regex 验证,后备存储、阻塞池、命名空间存储和存储桶类时,当名称的开头输入符号或大写字母时,规则"starts 和 number"会违反。

    在这个版本中,这个问题已被解决,如果资源名称没有遵循该规则,"starts 和以小写字母或数字"结尾,regex 会返回错误。

    (BZ#2193109)

6.6. Rook

  • ODF 监控不再缺少任何指标值

    在以前的版本中,ceph-exporter 的服务监控缺少端口。这意味着 Ceph 守护进程性能指标缺失。

    在这个版本中,添加了 ceph-exporter 服务监控器的端口,Ceph 守护进程性能指标可在 prometheus 中可见。

    (BZ#2221488)

  • 如果出现网络问题,OSD pod 不再继续 flapping

    在以前的版本中,如果 OSD pod 由于网络问题启动 flapping,则它们将继续 flapping。这会给系统造成负面影响。

    在这个版本中,在一定时间后,flapping OSD pod 被标记为 down,不再影响系统。

    (BZ#2223959)

  • MDS 不再被不必要重启

    在以前的版本中,MDS pod 被不必要重启,因为存活度探测在不检查 ceph fs dump 的情况下会重启 MDS。

    在这个版本中,存活度探测监控 ceph fs dump 中的 MDS,只有在转储输出中缺少 MDS 时重启 MDS。

    (BZ#2234377)

第 7 章 已知问题

本节介绍了 Red Hat OpenShift Data Foundation 4.14 中已知的问题。

7.1. 灾难恢复

  • 故障转移操作报告 pod 上的 RADOS 块设备镜像挂载在仍然在使用中的 RPC 错误时失败

    在灾难恢复(DR)受保护的工作负载时,可能会导致在故障转移集群中使用卷处于卡住的 pod,报告 RADOS 块设备(RBD)镜像仍在使用。这可防止 pod 在很长时间内启动(最多几个小时)。

    (BZ#2007376)

  • 为受管集群创建应用程序命名空间

    应用程序命名空间需要存在于 RHACM 受管集群中,用于灾难恢复 (DR) 相关的预部署操作,因此当应用程序部署在 RHACM hub 集群中时预先创建。但是,如果在 hub 集群中删除某个应用程序,并且在受管集群中删除对应的命名空间,则会在受管集群上重新应用。

    临时解决方案: openshift-dr 在 RHACM hub 的受管集群命名空间中维护一个命名空间 manifestwork 资源。需要在应用程序删除后删除这些资源。例如,作为集群管理员,在 hub 集群上执行以下命令: oc delete manifestwork -n <managedCluster namespace> <drPlacementControl name>-<namespace>-ns-mw

    (BZ#2059669)

  • 当集群处于扩展模式时,Ceph df 会报告一个无效的 AVAIL 值

    当 Red Hat Ceph Storage 集群的 crush 规则具有多个"take"步骤时,ceph df 报告显示该映射的最大可用大小。这个问题将在即将推出的版本中解决。

    (BZ#2100920)

  • 这两个 DRPC 都保护在同一命名空间中创建的所有持久性卷声明

    托管多个灾难恢复(DR)保护工作负载的命名空间,保护 hub 集群上每个 DRPlacementControl 资源的命名空间,该命名空间不根据 spec.pvcSelector 字段在工作负载上指定并隔离 PVC。

    这会生成 PVC,它与多个工作负载的 DRPlacementControl spec.pvcSelector 匹配。或者,如果所有工作负载都缺少选择器,复制管理可能会多次管理每个 PVC,并根据单独的 DRPlacementControl 操作造成数据崩溃或无效操作。

    临时解决方案:标签 PVC 属于唯一工作负载,并使用所选标签作为 DRPlacementControl spec.pvcSelector,以忽略哪个 DRPlacementControl 保护和管理命名空间中的哪些 PVC 子集。无法使用用户界面为 DRPlacementControl 指定 spec.pvcSelector 字段,因此必须使用命令行删除并创建此类应用程序的 DRPlacementControl。

    结果: PVC 不再由多个 DRPlacementControl 资源管理,不会造成任何操作和数据不一致。

    (BZ#2111163)

  • MongoDB pod 处于 CrashLoopBackoff,因为的权限错误读取 cephrbd 卷中的数据

    跨不同受管集群的 OpenShift 项目具有不同的安全性上下文约束 (SCC),这在指定的 UID 范围和/或 FSGroups 中有所不同。这会导致某些工作负载 pod 和容器无法在这些项目中启动后故障转移或重新定位操作,因为日志中的文件系统访问错误。

    临时解决方案:确保在所有带有同一项目级别的 SCC 标签的受管集群中创建工作负载项目,以便在通过或重新定位失败时使用相同的文件系统上下文。Pod 不再对文件系统相关的访问错误失败失败。

    (BZ#2114573)

  • 应用程序在重新定位过程中处于 Relocating 状态

    Multicloud Object Gateway 允许将相同名称或命名空间的多个持久性卷 (PV) 对象添加到同一路径的 S3 存储中。因此,Ramen 不会恢复 PV,因为它检测到指向同一 claimRef 的多个版本。

    临时解决方案:使用 S3 CLI 或等同于从 S3 存储清理重复的 PV 对象。仅保持接近故障转移或重新定位时间的时间戳的那一个。

    结果:恢复操作将继续完成,故障切换或重新定位操作会继续下一步。

    (BZ#2120201)

  • 灾难恢复工作负载在删除时会卡住

    当从集群中删除工作负载时,对应的 pod 可能无法与 FailedKillPod 等事件终止。这可能会导致垃圾收集依赖的 DR 资源(如 PVCVolumeReplicationVolumeReplicationGroup)的延迟或失败。它还可防止以后将相同的工作负载部署到集群中,因为过时的资源还没有垃圾回收。

    临时解决方案:重启正在运行 pod 的 worker 节点,并处于终止状态。这会导致 pod 终止以及随后相关的 DR API 资源被收集垃圾回收。

    (BZ#2159791)

  • 当受管集群位于不同版本的 OpenShift Container Platform 和 OpenShift Data Foundation 时,应用程序故障切换会处于 FailingOver 状态

    使用 OpenShift Data Foundation 4.14 的灾难恢复解决方案除了持久性卷(PV)数据外,还保护并恢复持久性卷声明(PVC)数据。如果主集群位于旧的 OpenShift Data Foundation 版本,并且目标集群更新至 4.14,则故障转移将卡住,因为 S3 存储不会具有 PVC 数据。

    临时解决方案:在升级灾难恢复集群时,必须首先升级主集群,然后必须运行升级后的步骤。

    (BZ#2214306)

  • 当 DRPolicy 应用到同一命名空间中的多个应用程序时,不会创建卷复制组

    当为与命名空间中的其他应用程序在一起的应用程序创建 DRPlacementControl (DRPC)时,DRPC 没有为应用设置标签选择器。如果对标签选择器进行任何更改,OpenShift Data Foundation Hub 控制器中的验证准入 Webhook 会拒绝更改。

    临时解决方案:更改准入 Webhook 以允许此类更改,DRPC validatingwebhookconfigurations 可以修补以删除 Webhook。

    $ oc patch validatingwebhookconfigurations vdrplacementcontrol.kb.io-lq2kz --type=json --patch='[{"op": "remove", "path": "/webhooks"}]'
    Copy to Clipboard

    (BZ#2210762)

  • 在 FailingOver 中将应用程序从 c1 故障转移到 c2 集群挂起。

    当因为 s3 存储错误配置导致数据没有上传到 s3 存储错误配置时,Ramen 不会禁用故障转移操作。这意味着故障转移过程中在故障转移集群中无法使用集群数据。因此,无法完成故障转移。

    临时解决方案:在初始部署后检查日志以确保没有报告 s3 配置错误。

    $ oc get drpc -o yaml
    Copy to Clipboard

    (BZ#2248723)

  • hub 恢复后数据丢失的潜在风险

    因为旨在清理孤立资源而在 hub 恢复后存在潜在的数据丢失风险。这会识别并标识对于集合缺少对应 ManifestWorksAppliedManifestWorks 实例。提供了 1 小时的硬编码宽限期。在这个周期过后,与 AppliedManifestWork 关联的任何资源都会受到垃圾回收的影响。

    如果 hub 集群无法在初始一小时窗口中重新生成对应的 ManifestWorks,则可能会出现数据丢失。这重点介绍了及时解决可能防止在 ManifestWorks 后恢复 后重新创建的问题的重要性,以最大程度降低数据丢失的风险。

    (BZ-2252933)

7.1.1. DR 升级

本节论述了在灾难恢复环境中将 Red Hat OpenShift Data Foundation 从版本 4.13 升级到 4.14 的问题和临时解决方案。

  • 不正确的值缓存 status.preferredDecision.ClusterNamespace

    当 OpenShift Data Foundation 从 4.13 升级到 4.14 时,灾难恢复放置控制(DRPC)可能会在 status.preferredDecision.ClusterNamespace 中缓存不正确的值。因此,DRPC 会错误地输入 WaitForFencing PROGRESSION,而不是检测故障转移已经完成。受管集群中的工作负载不受此问题的影响。

    临时解决方案:

    1. 要识别受影响的 DRPC,请检查状态为 FailedOver 作为 CURRENTSTATE 的任何 DRPC,并处于 WaitForFencing PROGRESSION。
    2. 要清除不正确的值,请编辑 DRPC 子资源并删除行,status.PreferredCluster.ClusterNamespace

      $ oc edit --subresource=status drpc -n <namespace>  <name>
      Copy to Clipboard
    3. 要验证 DRPC 状态,请检查 PROGRESSION 是否处于 COMPLETED 状态,并且 FailedOver 为 CURRENTSTATE。

      (BZ#2215442)

7.2. Ceph

  • CephFS 上扩展集群的性能不佳

    具有许多小元数据操作的工作负载可能会因为在多站点 Data Foundation 集群上放置元数据服务器(MDS)造成性能不佳。

    (BZ#1982116)

  • SELinux 重新标记问题,带有大量文件

    当将卷附加到 Red Hat OpenShift Container Platform 中的 pod 时,pod 有时无法启动或需要很长时间才能启动。这个行为是通用的,它绑定到 Kubelet 处理 SELinux 重新标记的方式。对于任何基于文件系统的卷,会发现这个问题。在 OpenShift Data Foundation 中,使用基于 CephFS 的卷和大量文件时会出现此问题。解决此问题的方法有多种。根据您的业务需求,您可以从知识库解决方案 https://access.redhat.com/solutions/6221251 中选择一个临时解决方案。

    (Jira#3327)

  • 运行崩溃或关闭测试后 Ceph 无法访问

    在扩展集群中,当 monitor 被 revived 且处于其他 monitor 的探测阶段时,无法接收最新的信息,如 monitorMapOSDMap,它无法在 probing 阶段进入 stretch_mode。这可防止它正确设置 elector 的 disallowed_leaders 列表。

    假设 revived monitor 实际上具有最佳分数,它认为它最好是当前选举循环中的领导者,并会导致 monitor 的选举阶段卡住。因为它会持续推出自己,但会因为 disallowed_leaders 列表被 surviving monitor 拒绝。这会导致 monitor 处于选举状态,Ceph 最终会变得无响应。

    要解决这个问题,当处于选举状态且 Ceph 变得无响应时,使用以下命令重置每个 monitor 的连接分数:

    `ceph daemon mon.{name} connection scores reset`
    Copy to Clipboard

    如果这不起作用,请逐一重新启动 monitor。选举随后将被解放,监视器将能够选举领导机,形成仲裁,Ceph 将再次响应。

    (BZ#2241937)

  • Ceph 在工作负载部署后 没有报告活跃 mgr

    在工作负载部署后,Ceph 管理器丢失了与 MON 的连接,或者无法响应其存活度探测。

    这会导致 ODF 集群状态报告是否有 "no active mgr"。这会导致多个使用 Ceph 管理器请求处理的操作失败。例如,卷调配、创建 CephFS 快照等。

    要检查 ODF 集群的状态,请使用 oc get cephcluster -n openshift-storage 命令。在状态输出中,如果集群有此问题,status.ceph.details.MGR_DOWN 字段将具有消息 "no active mgr"。

    要解决这个问题,请使用以下命令重启 Ceph 管理器 pod:

    # oc scale deployment -n openshift-storage rook-ceph-mgr-a --replicas=0
    Copy to Clipboard
    # oc scale deployment -n openshift-storage rook-ceph-mgr-a --replicas=1
    Copy to Clipboard

    运行这些命令后,ODF 集群状态会报告一个健康的集群,没有有关 MGR_DOWN 的警告或错误。

    (BZ#2244873)

  • 当 StorageCluster 中使用自定义 deviceClass 时,CephBlockPool 创建会失败

    由于一个已知问题,当 StorageCluster 中使用自定义 deviceClass 时,CephBlockPool 创建会失败。

    (BZ#2248487)

7.3. CSI Driver

  • 自动扁平化快照无法正常工作

    当有一个常见的父 RBD PVC 时,如果卷快照、恢复和删除快照是在超过 450 次的序列中执行的,则无法进行卷快照或克隆通用父 RBD PVC。

    要解决这个问题,而不是按顺序执行卷快照、恢复和删除快照,您可以使用 PVC 克隆来完全避免这个问题。

    如果您达到此问题,请联系客户支持来手动扁平化最终恢复 PVC,以继续对常见父 PVC 进行卷快照或克隆。

    (BZ#2232163)

7.4. OpenShift Data Foundation 控制台

  • 缺少 NodeStageVolume RPC 调用会阻止新 pod 进入 Running 状态

    NodeStageVolume RPC 调用不会被发出,阻止某些 pod 进入 Running 状态。新 pod 会永久处于 Pending 状态。

    要解决这个问题,请一次性缩减所有受影响的 pod,或者重启节点。应用临时解决方案后,所有 pod 应该处于 Running 状态。

    (BZ#2244353)

  • 备份无法传输数据

    在某些情况下,备份无法传输数据,快照 PVC 处于 Pending 状态。

    (BZ#2248117)

第 8 章 已弃用的功能

这部分论述了 Red Hat OpenShift Data foundation 4.14 中引入的已弃用的功能。

8.1. Red Hat Virtualization Platform

启动 Red Hat OpenShift Data Foundation 4.14,在 Red Hat Virtualization Platform (RHV)上部署 OpenShift 上的 OpenShift Data Foundation 不再被支持。

如需更多信息,请参阅 OpenShift Container Platform 4.14 发行注记

第 9 章 异步勘误更新

9.1. RHSA-2025:0323 OpenShift Data Foundation 4.14.13 程序错误修复和安全更新

OpenShift Data Foundation 版本 4.14.13 现已正式发布。此更新包括的程序错误修正信息包括在 RHSA-2025:0323 公告中。

9.2. RHBA-2024:10129 OpenShift Data Foundation 4.14.12 程序错误修复和安全更新

OpenShift Data Foundation 版本 4.14.12 现已正式发布。此更新包括的程序错误修正信息包括在 RHBA-2024:10129 公告中。

9.3. RHSA-2024:7624 OpenShift Data Foundation 4.14.11 程序错误修复和安全更新

OpenShift Data Foundation 版本 4.14.11 现已正式发布。此更新包括的程序错误修正信息包括在 RHSA-2024:7624 公告中。

9.4. RHBA-2024:6398 OpenShift Data Foundation 4.14.10 程序错误修复和安全更新

OpenShift Data Foundation 版本 4.14.10 现已正式发布。此更新包括的程序错误修正信息包括在 RHBA-2024:6398 公告中。

9.5. RHBA-2024:4217 OpenShift Data Foundation 4.14.9 程序错误修复和安全更新

OpenShift Data Foundation 版本 4.14.9 现已正式发布。此更新包括的程序错误修正信息包括在 RHBA-2024:4217 公告中。

9.6. RHBA-2024:3861 OpenShift Data Foundation 4.14.8 程序错误修复和安全更新

OpenShift Data Foundation 版本 4.14.8 现已正式发布。此更新包括的程序错误修正信息包括在 RHBA-2024:3861 公告中。

9.7. RHBA-2024:3443 OpenShift Data Foundation 4.14.7 程序错误修复和安全更新

OpenShift Data Foundation 版本 4.14.7 现已正式发布。此更新包括的程序错误修正信息包括在 RHBA-2024:3443 公告中。

9.8. RHBA-2024:1579 OpenShift Data Foundation 4.14.6 程序错误修复和安全更新

OpenShift Data Foundation release 4.14.6 现已正式发布。此更新包括的程序错误修正信息包括在 RHBA-2024:1579 公告中。

9.9. RHBA-2024:1043 OpenShift Data Foundation 4.14.5 程序错误修复和安全更新

OpenShift Data Foundation 版本 4.14.5 现已正式发布。此更新包括的程序错误修正信息包括在 RHBA-2024:1043 公告中。

9.10. RHBA-2024:0315 OpenShift Data Foundation 4.14.4 程序错误修复和安全更新

OpenShift Data Foundation release 4.14.4 现已正式发布。此更新包括的程序错误修正信息包括在 RHBA-2024:0315 公告中。

9.11. RHBA-2023:7869 OpenShift Data Foundation 4.14.3 程序错误修复和安全更新

OpenShift Data Foundation 版本 4.14.3 现已正式发布。此更新包括的程序错误修正信息包括在 RHBA-2023:7869 公告中。

9.12. RHBA-2023:7776 OpenShift Data Foundation 4.14.2 程序错误修复和安全更新

OpenShift Data Foundation 版本 4.14.2 现已正式发布。此更新包括的程序错误修正信息包括在 RHBA-2023:7776 公告中。

9.13. RHBA-2023:7696 OpenShift Data Foundation 4.14.1 程序错误修复和安全更新

OpenShift Data Foundation 版本 4.14.1 现已正式发布。此更新包括的程序错误修正信息包括在 RHBA-2023:7696 公告中。

返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat