1.8. 已知问题
网关 API 和 Amazon Web Services (AWS)、Google Cloud 和 Microsoft Azure 私有集群存在一个已知问题。为网关置备的负载均衡器始终配置为外部,这可能会导致错误或意外行为:
-
在 AWS 私有集群中,负载均衡器会处于
pending状态,并报告错误:Error sync load balancer: failed to ensure load balancer: could not find any appropriate subnets for the ELB。 - 在 Google Cloud 和 Azure 私有集群中,当负载均衡器没有外部 IP 地址时,会置备一个外部 IP 地址。
这个问题不支持临时解决方案。(OCPBUGS-57440)
-
在 AWS 私有集群中,负载均衡器会处于
当在隔离的用户命名空间中运行 pod 时,pod 容器中的 UID/GID 不再与主机上的 UID/GID 匹配。为了文件系统所有权正常工作,Linux 内核使用 ID 映射挂载,它会在虚拟文件系统(VFS)层中转换容器和主机之间的用户 ID。
但是,并非所有文件系统目前都支持 ID 映射挂载,如网络文件系统(NFS)和其他网络/分布式文件系统。由于这样的文件系统不支持 ID 映射挂载,所以在用户命名空间中运行的 pod 无法访问挂载的 NFS 卷。此行为不特定于 OpenShift Container Platform。它适用于 Kubernetes v1.33 及之后的版本中的所有 Kubernetes 发行版本。
当升级到 OpenShift Container Platform 4.20 时,集群不受影响,直到您选择用户命名空间。在启用了用户命名空间后,任何从不支持 ID 映射挂载的供应商使用 NFS 支持的持久性卷的 pod 可能会在用户命名空间中运行时遇到访问或权限问题。有关启用用户命名空间的更多信息,请参阅配置 Linux 用户命名空间支持。
注意现有 OpenShift Container Platform 4.19 集群不受影响,除非您明确启用用户命名空间,这是 OpenShift Container Platform 4.19 中的技术预览功能。
-
在 Azure 上安装集群时,如果您将任何
compute.platform.azure.identity.type、controlplane.platform.azure.identity.type或platform.azure.defaultMachinePlatform.identity.type字段值设置为None,您的集群无法从 Azure Container Registry 拉取镜像。您可以通过提供用户身份或将 identity 字段留空来避免此问题。在这两种情况下,安装程序会生成用户分配的身份。(OCPBUGS-56008) -
控制台统一软件目录视图中存在一个已知问题。选择 Ecosystem
Software Catalog 时,您必须输入现有项目名称或创建新项目来查看软件目录。项目选择字段不会影响集群中安装目录内容的方式。作为临时解决方案,请输入任何现有项目名称来查看软件目录。(OCPBUGS-61870) - 从 OCP 4.20 开始,容器的默认最大打开文件软限制较低。因此,最终用户可能会遇到应用程序失败。要临时解决这个问题,请增加容器运行时(CRI-O) ulimit 配置。(OCPBUGS-62095)
- 使用 BlueField-3 NIC 删除和重新创建测试工作负载会导致时钟因为 PTP 同步不一致而跳转。这会破坏测试工作负载中的时间同步。当工作负载稳定时,时间同步稳定。(RHEL-93579)
- 由于相同的三个字母前缀("eno"),GNR-D 接口的事件日志是模糊的。因此,在状态更改过程中不会明确识别受影响的接口。要临时解决这个问题,请更改 ptp-operator 使用的接口,以遵循"path"命名规则,确保每个时钟事件会根据接口名称正确识别,并明确指明哪些时钟会受状态更改的影响。如需更多信息,请参阅网络接口命名策略。(OCPBUGS-62817)
-
使用 Telecom Time Synchronous Clock (T-TSC) 配置会导致 ts2phc 指标报告"unlocked"而不是"locked"。因此,您可能会遇到不准确的 Precision Time Protocol (PTP) 时钟状态报告。要临时解决这个问题,删除
ts2phc指标。(OCPBUGS-63158) - 因为 OS 和 iDRAC 重启间的干扰,在 Dell XR8620 上更新 iDRAC 固件可能会导致服务器失败。这可能会中断服务。要临时解决这个问题,请在 OpenShift 之外的服务器中更新 iDRAC 固件。(OCPBUGS-60876)
-
在 AWS 上安装集群时,如果您在运行任何
openshift-install create命令前没有配置 AWS 凭证,安装程序会失败。(OCPBUGS-56658)
-
在使用特定的 AMD EPYC 处理器的系统上,一些低级别系统中断(如
AMD-Vi)可能包含 CPU 掩码中与 CPU 固定工作负载重叠的 CPU。此行为是因为硬件设计。这些特定错误报告中断通常不活跃,目前没有已知的性能影响。(OCPBUGS-57787) -
目前,使用
guaranteedQoS 类和请求整个 CPU 的 pod 可能无法在节点重启或 kubelet 重启后自动重启。此问题可能会在配置了静态 CPU Manager 策略的节点并使用full-pcpus-only的规格中发生,当节点上的大多数或所有 CPU 都已由此类工作负载分配时。作为临时解决方案,请手动删除并重新创建受影响的 pod。(OCPBUGS-43280) -
如果存档包含以后缀
nodes结尾的自定义命名空间目录,则 Performance Profile Creator 工具将无法分析must-gather存档。发生故障的原因是工具的搜索逻辑错误地报告多个匹配项的错误。作为临时解决方案,请重命名自定义命名空间目录,使其不以nodes后缀结尾,并再次运行该工具。(OCPBUGS-60218) - 目前,在配置了 SR-IOV 网络虚拟功能的集群中,负责网络设备重命名和由 Node Tuning Operator 管理的 TuneD 服务的系统服务之间可能会出现竞争条件。因此,在节点重启后 TuneD 配置集可能会降级,从而导致性能下降。作为临时解决方案,重启 TuneD pod 以恢复配置集状态。(OCPBUGS-41934)
- 目前已知的延迟问题会影响在第 4 代 Intel Xeon 处理器上运行的系统。(OCPBUGS-46528)
- 当虚拟介质镜像通过 IPv6 地址提供时,SuperMicro ARS-111GL-NHR 服务器无法访问虚拟介质。因此,您不能在带有 IPv6 网络配置的 SuperMicro ARS-111GL-NHR 服务器模型中使用虚拟介质。(OCPBUGS-60070)
- Hewlett Packard Enterprise (HPE) DL110G11 服务器和类似模型上的固件更新可能会因为一个特定于此硬件的错误而失败,是由 'NetworkAdapters' 资源的实现方式造成的。它可能会在更新过程中不可用,并导致更新失败。要临时解决这个问题,请手动更新 Ironic 之外的 Baseboard Management Controller (BMC)固件以避免服务中断。(OCPBUGS-60708)
-
由于 SuperMicro ARS-111GL-NHR 服务器引导到现有的硬盘而不是虚拟介质,因此在特定的 BMC 固件版本上,将
Baremetalhost引导到正确的operating system会重复失败。这个问题出现在更新的 BIOS 和裸机主机固件中,导致在 USB CD 正常工作时不支持 CD。因此,节点检查会失败。如果受影响,一个临时解决方式是,手动将BootSourceOverrideTarget设置为 USB CD 而不是 CD,并从正确的虚拟介质引导节点。(OCPBUGS-61851) - 当更新 Dell 服务器 BMC 固件时,Redfish API 会临时中断。这可能导致连接失败,并触发 Ironic 将更新标记为失败。要临时解决这个问题,在 Ironic 之外手动更新 BMC 固件以避免服务中断。(OCPBUGS-61871)
- 当在 Dell R740 上尝试同时进行 BIOS 和 BMC 固件更新时,BMC 更新可能会失败,使服务器关闭并无响应。当更新过程没有成功完成时,会出现这个问题,从而导致系统处于非运行状态。(OCPBUGS-62009)
- 如果您为服务器配置了不正确的网络共享位置或无效凭证,则更新 BMC 固件可能会失败,从而导致服务器保持关机且无法恢复。(OCPBUGS-62010)
- 由于在时钟降级逻辑中存在一个程序错误,上游时钟连接的丢失不会触发所有时钟状态指标的降级。因此,在降级到 "unlocked" 状态后,'ptp4l' 和 'ts2phc' 时钟状态指标可能无法按预期降级,从而导致时间同步状态报告不一致。要临时解决这个问题,只依赖 'dpll' 和 'T-BC' 时钟状态指标,并忽略 'ptp4l' 和 'ts2phc' 指标。(OCPBUGS-62719)