4.18 发行注记


Red Hat OpenShift Data Foundation 4.18

功能增强、已知问题和其他重要发行信息的发行注记。

Red Hat Storage Documentation Team

摘要

本发行注记介绍了 Red Hat OpenShift Data Foundation 4.18 的新功能、功能增强、重要的技术更改,以及所有已知问题。

使开源包含更多

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。我们从这四个术语开始:master、slave、黑名单和白名单。由于此项工作十分艰巨,这些更改将在即将推出的几个发行版本中逐步实施。有关更多详情,请参阅我们的首席技术官 Chris Wright 提供的消息

第 1 章 概述

Red Hat OpenShift Data Foundation 是为容器环境优化的软件定义型存储。它在 OpenShift Container Platform 上作为操作器运行,为容器提供高度集成和简化的持久性存储管理。

Red Hat OpenShift Data Foundation 集成到最新的 Red Hat OpenShift Container Platform 中,以解决平台服务、应用程序可移植性和持久性挑战。它为下一代云原生应用程序提供了一个高度可扩展的后端,基于包含 Red Hat Ceph Storage、Rook.io Operator 和 NooBaa 的 Multicloud Object Gateway 技术的技术堆栈构建。

Red Hat OpenShift Data Foundation 为 FIPS 设计。当在 RHEL 或 RHEL CoreOS 中以 FIPS 模式运行时,OpenShift Container Platform 核心组件只使用在 x86_64、ppc64le 和 s390X 架构上提交到 NIST 的 RHEL 加密库。有关 NIST 验证程序的更多信息,请参阅加密模块验证程序。有关为验证提交的 RHEL 加密库的单独版本的最新 NIST 状态,请参阅 Compliance Activities 和 Government Standards

Red Hat OpenShift Data Foundation 提供了一个可信的企业级应用程序开发环境,它以多种方式简化并增强应用程序生命周期的用户体验:

  • 为数据库提供块存储。
  • 用于持续集成、消息传递和数据聚合的共享存储。
  • 用于云环境开发、存档、备份和媒体存储的对象存储。
  • 可适用于以指数级增长的应用程序和数据。
  • 以更快的速度附加和分离持久性卷。
  • 跨多个数据中心或可用区扩展集群。
  • 建立全面的应用程序容器 registry。
  • 支持下一代 OpenShift 工作负载,如数据分析、智能 Intelligence、机器学习、经济学和物联网(IoT)。
  • 动态置备应用程序容器,以及数据服务卷和容器,以及额外的 OpenShift Container Platform 节点、Elastic Block Store(EBS)卷和其他基础架构服务。

1.1. 关于此版本

Red Hat OpenShift Data Foundation 4.18 (RHSA-2025:2652)现已正式发布。OpenShift Data Foundation 4.18 的新功能、功能和已知的问题包括在此文档中。

Red Hat OpenShift Data Foundation 4.18 在 Red Hat OpenShift Container Platform 版本 4.18 上被支持。如需更多信息,请参阅 Red Hat OpenShift Data Foundation Supportability and Interoperability Checker

如需 Red Hat OpenShift Data Foundation 生命周期信息,请参阅 Red Hat OpenShift Data Foundation 生命周期

第 2 章 新功能

本节介绍 Red Hat OpenShift Data Foundation 4.18 中引入的新功能。

OpenShift Data Foundation 现在可使用 Red Hat OpenShift Service on AWS (ROSA)托管 control plane (HCP)部署。

如需更多信息,请参阅使用带有托管 control plane 的 Red Hat OpenShift Service 在 AWS 上部署 OpenShift Data Foundation

2.2. 灾难恢复解决方案

2.2.1. 在故障转移或重新定位前了解复制延迟

为发现和受管应用程序在故障转移或重新定位操作过程中显示非阻塞警告。这有助于了解复制延迟,因为复制问题和复制延迟,直到初始同步完成为止。

如需更多信息,请参阅受管集群之间的基于订阅的应用程序故障切换

2.2.2. 基于 RBD 的应用的更多方法功能

对方法的功能进行了增强,以支持更多基于 RBD 的应用。

Red Hat OpenShift Data Foundation 支持不同磁盘类型的使用和隔离。这些磁盘类型可以分隔到不同的设备类中,并作为单独的存储类公开。

这样,就可以使用特定磁盘性能控制哪些工作负载接收哪些本地存储。

注意

Red Hat OpenShift Data Foundation 仅支持闪存磁盘。

同一集群中可以使用不同的磁盘集合(本地存储),这提供了在同一集群中使用多个设备类的灵活性。

如需更多信息,请参阅为本地存储部署在同一集群中使用多个设备类扩展存储

优化,以减少在具有大量节点的 OpenShift 集群中升级 Red Hat OpenShift Data Foundation 所需的时间。优化会考虑节点和集群配置的数量,以便在升级过程中更好地的行为。这有助于在升级过程中逐一升级多个 CSI RBD 或 CephFS 插件 pod。

如需更多信息,请参阅将 Red Hat OpenShift Data Foundation 4.17 更新至 4.18 的先决条件部分。

2.5. Multicloud Object Gateway Bucket Replication 的版本

Multicloud Object Gateway (MCG)中的版本控制允许对象数据在两个不同的位置,或从 NooBaa on AWS 上的 NooBaa 复制到 NooBaa。这允许选择同步版本。

如需更多信息,请参阅在 Multicloud Object Gateway bucket 复制中同步版本

2.6. Multicloud 对象网关中的存储桶通知

bucket 通知允许创建高性能数据管道。因此,创建可立即检测并进一步处理新数据的数据流变得容易。这在 AI/ML 用例中特别重要。

如需更多信息,请参阅 Multicloud Object Gateway 中的 Bucket 通知

2.7. Multicloud Object Gateway 对象浏览器

可以使用 OpenShift 控制台中的 MCG 对象浏览器快速浏览、上传和下载存储桶内容。这提供了浏览 MCG 对象存储并避免使用第三方工具的简化方法。

如需更多信息,请参阅使用 MCG 对象浏览器创建和管理存储桶

2.8. 支持外部模式的 RADOS 命名空间

OpenShift Data Foundation 支持其外部模式集群的 RADOS 命名空间。这有助于提高多租户场景的性能。通过创建对 cephBlockPools 上每个租户具有受限访问权限的 RADOS 命名空间,它将提供 RBD 存储的有效方法。

有关更多信息,请参阅 为外部 Ceph 存储系统创建 OpenShift Data Foundation 集群

2.9. 通过 CLI 工具的 Ceph 命令

任意 ceph CLI 命令可以作为 ODF CLI 工具的一部分运行,主要用于使用 Red Hat OpenShift Data Foundation 文档进行指导故障排除。

注意

通常,不支持直接使用 ceph 命令的配置更改,而无需红帽支持的明确说明。

第 3 章 功能增强

这部分论述了 Red Hat OpenShift Data foundation 4.18 中引入的主要改进。

3.1. 手动指定 Multus 网络地址范围

当将 Multus 与适当的 CIDR 一起使用时,可以手动指定添加到 Rook 的多个地址范围。这有助于通过自动检测来克服限制,这些限制在带有 CIDR 的环境中只发现单个 CIDR,这无法启动或错误来连接到网络。

如需更多信息,请参阅 Multus 网络地址空间大小

3.2. 使用 KMS 加密的密钥轮转

现在支持为集群范围的 KMS 的加密密钥启用密钥轮转。这有助于满足常见的安全实践要求。

如需更多信息,请参阅 集群范围的加密

3.3. 为 PV 加密禁用密钥轮转的选项

对于默认启用的 PV 加密的密钥轮转,可以针对特定的持久性卷声明(PVC)禁用。

如需更多信息,请参阅禁用密钥轮转

3.4. 禁用默认 ReclaimSpace 的选项

通过 StorageClass 或 Namespace 注解默认启用 reclaimspace。可以禁用某些持久性卷声明(PVC)重新声明空间,因为重新声明空间(fstrim)的过程可能会影响性能。

如需更多信息,请禁用 特定 PersistentVolumeClaim 的重新声明空间

3.5. 部署后转换加密

部署后可以为现有集群启用或禁用 in-transit 加密。这会为现有集群加密通信。

如需更多信息,请参阅 在转换后启用和禁用加密

3.6. OpenShift Data Foundation 仪表板上的加密配置

OpenShift Data Foundation 仪表板提供有关加密配置的信息,如在传输中静态和加密的不同状态。

3.7. 更新以自动警报 MDS pod 扩展类型

MDSCPUUsageHigh 警报已更新,以根据 CPU 用量通知垂直和横向扩展。

有关更多信息,请参阅 CephMdsCpuUsageHigh

3.8. StorageCluster CR 的新日志级别参数

在 StorageCluster CR 中添加了一个新的参数 spec.nfs.LogLevel。此日志级别参数支持为 NFS 配置日志级别,从而提供对日志记录行为的更大的灵活性和控制。这有助于为调试和监控目的设置精确的日志设置。

MCG 操作器支持新的 AWS 区域 ap-southeast-5

第 4 章 删除的功能

本章列出了 Red Hat OpenShift Data Foundation 中支持但 OpenShift Data Foundation 4.18 中不再提供的功能。

4.1. MDSCacheUsageHigh alert

MDSCacheUsageHigh 警报已被删除。此警报查询 程序 来发送高 MDS 缓存使用警告。但是,rss 不是这种情况的正确指标。mds_co_bytes 是正确的指标,但 Ceph 不会公开指标。因此,会触发错误的警报。该警报已被删除,直到确定了更好的解决方案。

第 5 章 技术预览

这部分论述了 Red Hat OpenShift Data Foundation 4.18 中引入的技术预览功能,它受技术预览支持限制。

重要

红帽产品服务级别协议(SLA)不支持技术预览功能,且其功能可能并不完善,因此红帽不建议在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。

技术预览功能提供了有限的支持范围,如客户门户网站所述: 技术预览功能支持范围

5.1. 备份的多卷一致性 - CephFS 和块

为备份解决方案提供崩溃一致性多卷一致性组的多卷一致性组可供在多个卷上部署的应用使用。这为 OpenShift Virtualization 提供支持,有助于更好地支持应用程序。

Red Hat OpenShift Data Foundation 是实现这个新的和重要 CSI 功能的第一个存储厂商。

有关更多信息,请参阅 OpenShift Data Foundation 中的 CephFS VolumeGroupSnapshot 的知识库文章。

灾难恢复方法的功能已被改进来支持更多应用程序。对基于 CephFS 的应用的支持是本发行版本的技术预览状态。

第 6 章 开发人员预览

本节介绍 Red Hat OpenShift Data Foundation 4.18 中引入的开发人员预览功能。

重要

开发人员预览功能可能会受开发人员预览支持限制。开发人员预览版本不应在生产环境中运行。使用开发人员预览功能部署的集群被视为开发集群,不受红帽客户门户网站问题单管理系统的支持。如果您需要开发人员预览功能的帮助,请联络 ocs-devpreview@redhat.com 邮件列表和红帽开发团队成员将根据其可用性和工作计划尽快为您提供协助。

6.1. 一致的 RADOS 块设备(RBD)组灾难恢复

OpenShift Data Foundation 灾难恢复解决方案提供了一种一致镜像带有区域灾难恢复的多个 ReadWriteOnce (RWO)持久性卷(PV)的方法。

如需更多信息,请参阅知识库文章 OpenShift 4.18 中启用和管理一致性组

第 7 章 程序错误修复

本节论述了 Red Hat OpenShift Data Foundation 4.18 中引入的显著程序错误修复。

7.1. 灾难恢复

  • DR 仪表板中的 VolSync 报告 operator 降级

    在以前的版本中,Red Hat Advanced Cluster Management for Kubernetes (RHACM) 2.13 在受管集群上部署了 Volsync Operator,而无需创建 ClusterServiceVersion (CSV)自定义资源(CR)。因此,OpenShift 没有为 Volsync 生成 csv_succeeded 指标,因此 ODF-DR 仪表板不会显示 Volsync operator 的健康状况。

    在这个版本中,对于 Volsynccsv_succeeded 指标被 kube_running_pod_ready 替换。因此,RHACM 指标白名单 ConfigMap 已更新,ODF-DR 仪表板能够有效地监控 Volsync operator 的健康状况。

    (DFBUGS-1293)

  • 使用 Volsync 的复制需要在同步 PVC 前挂载 PVC

    在以前的版本中,没有挂载的 PVC 不会被同步到二级集群。

    在这个版本中,ODF-DR 会同步 PVC,即使它不是 PVCLabelSelector 的一部分。

    (DFBUGS-580)

7.2. 多云对象网关

  • 尝试删除不存在的存储桶类或 OBC 会导致 MCG CLI 出现错误

    在以前的版本中,尝试使用 MCG CLI 删除不存在的存储桶类或对象存储桶声明(OBC)不会出现错误。

    在这个版本中,在 CLI 删除 bucketclasses 和 OBCs 时的错误消息会被改进。

    (DFBUGS-201)

  • 在 s3 get 操作中观察到 502 bad Gateway: noobaa is throwing error at 'MapClient.read_chunks: chunk ERROR Error: has chunk errors chunk

    在以前的版本中,因为 MCG 中的竞争条件被取消上传和 dedup 流发现匹配项,所以对象已损坏。上述部分将被标记为重复,然后取消并回收,阻止第二个 duped 部分指向一个不再有效的重新声明数据。

    在这个版本中,避免使用尚未标记为完成上传的块,并在完成后添加一个时间缓冲以确保块处于活动状态,并可以去掉。

    (DFBUGS-216)

  • 命名空间存储处于被拒绝状态

    在以前的版本中,当 MCG 尝试验证目标存储桶的访问和存在时,在监控 NSStore 的过程中,即使它们应该被忽略,也不会忽略某些错误。

    在这个版本中,当对象不存在时,阻止 read-object_md 问题报告。

    (DFBUGS-700)

  • 更新存储桶配额始终会导致 1PB 配额的限制

    在以前的版本中,MCG 存储桶配额会导致 1PB 配额限制,而不考虑所需的值。

    在这个版本中,存储桶配额限制会设置正确的值。

    (DFBUGS-1173)

  • 通过 boto3 >= 1.36.0 使用 PutObject 会导致 InvalidDigest 错误

    在以前的版本中,带有使用升级 AWS SDK 或 CLI 的客户端的 PUT 请求会导致错误,因为 AWS SDK 或 CLI 更改了默认的 S3 客户端行为,以始终为支持它的操作计算校验和。

    在这个版本中,通过更改的行为允许来自 S3 客户端的 PUT 请求。

    (DFBUGS-1513)

7.3. Ceph

  • 设置 panic_on_warn 时,ceph_fill_file_size 中的内核 ceph fs module panicked

    在以前的版本中,因为存在特定的硬生成 CephFS 场景,会出现带有备注的同步的内核 panic: panic-on_warn_set

    在这个版本中,RHEL 内核已被修复,因此不再发生特定的 CephFS 场景。

    (DFBUGS-551)

7.4. Ceph 容器存储接口(CSI) Operator

  • ceph-csi-controller-manager pods OOMKilled

    在以前的版本中,ceph-csi-controller-manager pod 是 OOMKilled,因为这些 pod 会在安装 OpenShift Data Foundation 时尝试缓存集群中的所有 configmap。

    在这个版本中,缓存只适用于运行 ceph-csi-controller-manager pod 的命名空间。因此,pod 的内存用量是 stable,pod 不会被 OOMKilled

    (DFBUGS-938)

7.5. OCS Operator

  • 首选 在与放置反关联性相同的节点上调度 rook-ceph-mds pod,则不需要

    在以前的版本中,活跃 MDS 守护进程的 MDS pod 可以调度到同一故障域中,因为 MDS pod 具有 首选 pod 反关联性。

    在这个版本中,对于 activeMDS = 1,会应用所需的 反关联性。对于 activeMDS > 1首选 反关联性保留。因此,当 active MDS = 1 时,活跃守护进程的两个 MDS pod 需要 反关联性,确保它们没有调度到同一故障域中,并且当 activeMDS >1 时,反关联性将 首选,并且可以在同一节点上调度 MDS。

    (DFBUGS-1509)

7.6. OpenShift Data Foundation 控制台

  • 工具提示在其他组件后面呈现

    在以前的版本中,当将图形或图表悬停在图形或图表后,工具提示会被隐藏在图形或图表后面,且值不可见(在仪表板中)。这是因为 PatternFly v5 库问题。

    在这个版本中,PatternFly 更新至次版本,因此工具提示会明确可见。

    (DFBUGS-156)

  • 后备存储详情显示不正确的供应商

    在以前的版本中,因为供应商名称不正确的映射,TapStore 详情页面会显示不正确的供应商。

    在这个版本中,UI 逻辑已被更新,以正确显示供应商名称。

    (DFBUGS-353)

  • Popup 无法在规则上警报的错误消息

    在以前的版本中,可以在不通知的情况下,使用不同命名空间中的相同名称创建 OBC,这会导致潜在的冲突或意外行为。这是因为用户界面没有在命名空间间跟踪对象存储桶声明(OBC)。这允许重复的 OBC 名称没有正确的警告。

    在这个版本中,验证逻辑已被更新,以便在尝试使用重复名称创建 OBC 时正确检查和通知。如果存在具有相同名称的 OBC,则会显示一个清晰的警告,防止混淆并确保行为正确。

(DFBUGS-410)

  • 当点击 StorageClass 创建过程中点击"Enable Encryption"复选框时,会显示一个 404: Not Found 信息。

    在以前的版本中,在新 StorageClass 创建过程中使用"Enable Encryption"复选框启用加密时,会简要显示 "404: Not Found" 信息。

    在这个版本中,导致这个问题的条件已被修复。因此,"404: Not Found",在一些加载状态后直接显示配置表单。

    DFBUGS-489

  • 现有警告警报 "Inconsistent data on target cluster" 不会中断

    在以前的版本中,当为 failover/relocate 操作选择了不正确的目标集群时,现有警告警报 "Inconsistent data on target cluster" 不会消失。

    在这个版本中,在更改订阅应用程序的目标集群时,会正确刷新警告警报。因此,当为发现的应用程序触发故障转移/重新定位时,警报不再会被不必要地保留。

    (DFBUGS-866)

7.7. Rook

  • rook-ceph-osd-prepare-ocs-deviceset pod 生成重复指标

    在以前的版本中,因为 OSD 准备 pod 中的重复容限,所以从 kube-state-metrics 引发警报。

    在这个版本中,完成的 OSD 准备带有重复容限的 pod 会被删除。因此,不再会引发与升级相关的重复警报。

    (DFBUGS-839)

7.8. Ceph 监控

  • Prometheus 规则评估错误

    在以前的版本中,不会触发大量 PrometheusRuleFailures 错误日志和受影响的警报,因为许多包含指标 ceph_disk_occupation 的警报或规则查询有错误或无效的标签。

    在这个版本中,错误的标签已被修正,受影响的警报的查询已被更新。因此,prometheus 规则评估正确,所有警报都已被成功部署。

    (DFBUGS-789)

  • 当 MDS 使用量很高时,警报 "CephMdsCPUUsageHighNeedsVerticalScaling" 不会触发

    在以前的版本中,ocs-operator 无法读取或部署不正确的规则文件,与此文件关联的警报不可见。这是因为 PrometheusRule 文件 prometheus-ocs-rule.yaml 错误地缩进。

    在这个版本中,缩进已被修正,因此 PrometheusRule 文件已被成功部署。

    (DFBUGS-951)

第 8 章 已知问题

本节介绍 Red Hat OpenShift Data Foundation 4.18 中已知的问题。

8.1. 灾难恢复

  • Regional-DR 使用多路径设备或分区磁盘从 v4.17 升级到 v4.18 失败

    由于 Ceph 已知问题,带有多路径设备或分区磁盘的 Region-DR 环境不应从 v4.17 升级到 v4.18。这个问题将在 4.18 z-streams 或以后的发行版本中解决。

    (DFBUGS-1801)

  • 从 v4.17.z 升级到 v4.18 后,灾难恢复会被错误配置

    当 ODF Multicluster Orchestrator 和 Openshift DR Hub Operator 从 4.17.z 升级到 4.18 时,一些灾难恢复资源会在内部模式中错误配置。这会影响使用 ocs-storagecluster-ceph-rbdocs-storagecluster-ceph-rbd-virtualization StorageClasses 进行工作负载的灾难恢复。

    要解决这个问题,请按照本 知识库文章 中的说明操作。

    (DFBUGS-1804)

  • 当集群处于扩展模式时,Ceph df 会报告一个无效的 AVAIL 值

    当 Red Hat Ceph Storage 集群的 crush 规则具有多个"take"步骤时,ceph df 报告显示该映射的最大可用大小。这个问题将在即将推出的版本中解决。

    (DFBUGS-1748)

  • 这两个 DRPC 都保护在同一命名空间中创建的所有持久性卷声明

    托管多个灾难恢复(DR)保护工作负载的命名空间,保护 hub 集群上每个 DRPlacementControl 资源的命名空间,该命名空间不根据 spec.pvcSelector 字段在工作负载上指定并隔离 PVC。

    这会导致 PVC 与多个工作负载的 DRPlacementControl spec.pvcSelector 匹配。或者,如果所有工作负载都缺少选择器,复制管理可能会多次管理每个 PVC,并根据单独的 DRPlacementControl 操作造成数据崩溃或无效操作。

    临时解决方案:标签 PVC 属于唯一工作负载,并使用所选标签作为 DRPlacementControl spec.pvcSelector,以忽略哪个 DRPlacementControl 保护和管理命名空间中的哪些 PVC 子集。无法使用用户界面为 DRPlacementControl 指定 spec.pvcSelector 字段,因此必须使用命令行删除并创建此类应用程序的 DRPlacementControl。

    结果: PVC 不再由多个 DRPlacementControl 资源管理,不会造成任何操作和数据不一致。

    (DFBUGS-1749)

  • MongoDB pod 处于 CrashLoopBackoff,因为的权限错误读取 cephrbd 卷中的数据

    跨不同受管集群的 OpenShift 项目具有不同的安全性上下文约束 (SCC),这在指定的 UID 范围和/或 FSGroups 中有所不同。这会导致某些工作负载 pod 和容器无法在这些项目中启动后故障转移或重新定位操作,因为日志中的文件系统访问错误。

    临时解决方案:确保在所有带有同一项目级别的 SCC 标签的受管集群中创建工作负载项目,以便在通过或重新定位失败时使用相同的文件系统上下文。Pod 不再对文件系统相关的访问错误失败失败。

    (DFBUGS-1750)

  • 灾难恢复工作负载在删除时会卡住

    当从集群中删除工作负载时,对应的 pod 可能无法与 FailedKillPod 等事件终止。这可能会导致垃圾收集依赖的 DR 资源(如 PVCVolumeReplicationVolumeReplicationGroup)的延迟或失败。它还可防止以后将相同的工作负载部署到集群中,因为过时的资源还没有垃圾回收。

    临时解决方案:重启正在运行 pod 的 worker 节点,并处于终止状态。这会导致 pod 终止以及随后相关的 DR API 资源被收集垃圾回收。

    (DFBUGS-325)

  • 基于区域 DR CephFS 的应用故障转移显示有关订阅的警告

    应用程序通过或重新定位失败后,hub 订阅会显示错误声明"Some resources failed to deploy.。使用 View status YAML 链接来查看详情"。这是因为,使用 CephFS 作为后备存储置备程序的应用持久性卷声明(PVC),使用 Red Hat Advanced Cluster Management for Kubernetes (RHACM)订阅进行部署,并且具有 DR 保护由对应的 DR 控制器所有。

    临时解决方案:无法调整订阅状态中的错误。但是,可以检查无法部署的订阅资源,以确保它们是 PVC。这样可确保其他资源没有问题。如果无法部署的订阅中的唯一资源是 DR 保护的资源,则错误可以被忽略。

    (DFBUGS-253)

  • 禁用 PeerReady 标志可防止将操作改为 Failover

    DR 控制器根据需要执行完全协调。当集群无法访问时,DR 控制器会执行完整性检查。如果工作负载已重新定位,则此 sanity 检查会导致与工作负载关联的 PeerReady 标志被禁用,因为集群离线,sanity 检查不会完成。因此,禁用 PeerReady 标志可防止您将操作改为 Failover。

    临时解决方案:即使禁用了 PeerReady 标志,使用命令行界面将 DR 操作改为 Failover。

    (DFBUGS-665)

  • 当连接在扩展集群的两个数据中心之间丢失连接时,Ceph 变得无法访问,并且 IO 暂停

    当两个数据中心相互丢失但仍然连接到 Arbiter 节点时,在选择逻辑中存在一个缺陷,这会导致监视器之间有无限选举。因此,监控器无法选举领导,Ceph 集群将不可用。另外,IO 在连接丢失过程中暂停。

    临时解决方案:通过关闭区节点来关闭任何一个数据区的监控器。另外,您可以重置存活 mon pod 的连接分数。

    因此,监控器可以形成仲裁,Ceph 会再次可用,IOs 恢复。

    (DFBUGS-425)

  • 在从替换集群中使用过时的 Ceph 池 ID 时,RBD 应用无法分配

    对于在创建新对等集群之前创建的应用,无法挂载 RBD PVC,因为当替换对等集群时,无法更新 CSI configmap 中的 CephBlockPoolID 的映射。

    临时解决方案:在未替换的对等集群中,将 rook-ceph-csi-mapping-config configmap 更新为 cephBlockPoolID 的映射。这将启用为应用挂载 RBD PVC。

    (DFBUGS-527)

  • 有关 lastGroupSyncTime 的信息会在 hub 恢复后丢失,这些工作负载在不可用受管集群上是主的

    以前失败的应用程序不会报告 lastGroupSyncTime,从而导致警报 VolumeSynchronizationDelay 触发。这是因为当 ACM hub 和作为 DRPolicy 一部分的受管集群不可用时,从备份中重建新的 ACM hub 集群。

    临时解决方案:如果工作负载失败的受管集群不可用,您仍可以切换到一个存活的受管集群。

    (DFBUGS-376)

  • MCO operator 协调 veleroNamespaceSecretKeyRefCACertificates 字段

    当 OpenShift Data Foundation Operator 升级时,Ramen 配置中的 s3StoreProfiles 下的 CACertificatesveleroNamespaceSecretKeyRef 字段将会丢失。

    临时解决方案:如果 Ramen 配置具有 CACertificatesveleroNamespaceSecretKeyRef 字段的自定义值,则在执行升级后如何设置这些自定义值。

    (DFBUGS-440)

  • VirtualMachines.kubevirt.io 资源因为重新定位中的 mac 分配失败而无法恢复

    当虚拟机重新定位到首选集群时,由于 mac 地址不可用,它可能无法完成重新定位。如果虚拟机在故障转移集群时没有完全清理在首选集群中,会出现这种情况。

    在重新定位工作负载前,请确保工作负载从首选集群完全删除。

    (BZ#2295404)

  • 当还没有创建 ReplicationDestination 资源时,故障转移过程会失败

    如果用户在 LastGroupSyncTime 更新前启动故障转移,故障转移过程可能会失败。此失败由一条错误消息指示 ReplicationDestination 不存在。

    临时解决方案:

    编辑 hub 集群上 VRG 的 ManifestWork

    从清单中删除以下部分:

    /spec/workload/manifests/0/spec/volsync

    保存更改。

    正确应用此临时解决方案可确保 VRG 跳过使用 ReplicationDestination 资源恢复 PVC。如果 PVC 已存在,应用程序会原样使用。如果 PVC 不存在,则会创建新的 PVC。

    (DFBUGS-632)

  • 在向集群添加容量后,Ceph 处于警告状态

    在设备替换或添加容量过程后,观察到 Ceph 处于 HEALTH_WARN 状态,并带有 mon 报告缓慢的 ops。但是,对集群的可用性没有影响。

    (DFBUGS-1273)

  • OSD pod 在添加容量过程中重启

    通过向集群添加容量,OSD pod 会在执行集群扩展后重启。但是,除了 pod 重启外,不会对集群造成影响。

    (DFBUGS-1426)

8.2. 多云对象网关

8.3. Ceph

  • CephFS 上扩展集群的性能不佳

    具有许多小元数据操作的工作负载可能会因为在多站点 Data Foundation 集群上放置元数据服务器(MDS)造成性能不佳。

    (DFBUGS-1753)

  • SELinux 重新标记问题,带有大量文件

    当将卷附加到 Red Hat OpenShift Container Platform 中的 pod 时,pod 有时无法启动或需要很长时间才能启动。这个行为是通用的,它绑定到 Kubelet 处理 SELinux 重新标记的方式。对于任何基于文件系统的卷,会发现这个问题。在 OpenShift Data Foundation 中,使用基于 CephFS 的卷和大量文件时会出现此问题。解决此问题的方法有多种。根据您的业务需求,您可以从知识库解决方案 https://access.redhat.com/solutions/6221251 中选择一个临时解决方案。

    (Jira#3327)

8.4. CSI Driver

  • 自动扁平化快照无法正常工作

    当有一个常见的父 RBD PVC 时,如果卷快照、恢复和删除快照是在超过 450 次的序列中执行的,则无法进行卷快照或克隆通用父 RBD PVC。

    要解决这个问题,而不是按顺序执行卷快照、恢复和删除快照,您可以使用 PVC 克隆来完全避免这个问题。

    如果您达到此问题,请联系客户支持来手动扁平化最终恢复的 PVC,以继续对常见父 PVC 进行卷快照或克隆。

    (DFBUGS-1752)

8.5. OpenShift Data Foundation 控制台

  • 在单一命名空间中部署多个工作负载时优化 DRPC 创建

    当多个应用程序引用同一放置时,为任何应用程序启用 DR 会为引用放置的所有应用程序启用它。

    如果在创建 DRPC 后创建了应用程序,则 DRPC 中的 PVC 标签选择器可能与更新的应用程序的标签不匹配。

    临时解决方案: 在这种情况下,建议禁用 DR,并使用正确的标签选择器再次启用它。

    (DFBUGS-120)

8.6. OCS operator

  • 当 pod 处于 CLBO 状态时,增加 MDS 内存正在清除 CPU 值

    当元数据服务器(MDS)内存在 MDS pod 处于崩溃循环时增加(CLBO)状态,删除了 MDS pod 的 CPU 请求和限值。因此,为 MDS 更改设置的 CPU 请求或限制。

    临时解决方案:运行 oc patch 命令来调整 CPU 限值。

    例如:

    $ oc patch -n openshift-storage storagecluster ocs-storagecluster \
        --type merge \
        --patch '{"spec": {"resources": {"mds": {"limits": {"cpu": "3"},
        "requests": {"cpu": "3"}}}}}'

    (DFBUGS-426)

  • 在协调:Service "ocs-provider-server" 时出现错误无效:spec.ports[0].nodePort: Invalid value: 31659: provided port is allocated

    在 OpenShift Data Foundation 4.18 中,ocs-oeprator 使用端口 31659 部署服务,这可能会与现有服务 nodePort 冲突。由于其它服务已经在使用中,则无法使用此端口。因此,在部署服务时,ocs-oeprator 始终出错。这会导致升级协调卡住。

    临时解决方案:将 nodePort 替换为 ClusterIP 以避免冲突:

    oc patch -nopenshift-storage storagecluster ocs-storagecluster --type merge -p '{"spec": {"providerAPIServerServiceType": "ClusterIP"}}'

    (DFBUGS-1831)

  • 在带有托管的 control plane (HCP)部署的 Red Hat OpenShift Service on AWS (ROSA)中,Prometheus -operator pod 缺少容限

    由于在 ROSA HCP 部署上的 Red Hat OpenShift Data Foundation 过程中存在一个已知问题,在 Pod 创建后需要手动为 prometheus-operator 应用容限。要应用容限,请运行以下 patch 命令:

    $ oc patch csv odf-prometheus-operator.v4.18.0-rhodf -n odf-storage --type=json -p='[{"op": "add", "path": "/spec/install/spec/deployments/0/spec/template/spec/tolerations", "value": [
    
    {"key": "node.ocs.openshift.io/storage", "operator": "Equal", "value": "true", "effect": "NoSchedule" }
    ]}]'

    (DFBUGS-1272)

8.7. ODF-CLI

  • odf-CLI 工具错误地标识过时的卷

    因为过时的子卷识别工具中的问题,Stale 子卷 CLI 工具会错误地将有效的 CephFS 持久性卷声明(PVC)显示为 stale。因此,这个问题已修复了过时的子卷识别功能。

    (DFBUGS-3778)

第 9 章 弃用的功能

本节论述了 Red Hat OpenShift Data foundation 4.18 中引入的已弃用的功能。

9.1. OpenShift Data Foundation Multus 中的拥有者 pod

由于升级过程中拥有者 pod 的重复维护影响(当启用 Multus 时存在拥有者 pod),因此拥有者 pod 已被弃用。因此,在将集群升级到 4.18 之前,必须删除拥有者 pod,或者风险 PVC 无法正常工作。完成文章链接中介绍的步骤: 禁用 Multus 拥有者 pod 来禁用和移除拥有者 pod。请注意,这个禁用过程会消耗大量时间,在 ODF 升级到 4.18 前,务必要完成这个过程。

Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

关于红帽文档

Legal Notice

Theme

© 2026 Red Hat
返回顶部