3.4. Red Hat OpenStack Platform 17.1.1 维护发行版本 - 2023 年 9 月 20 日
部署此 RHOSP 发行版本时,请考虑 Red Hat OpenStack Platform (RHOSP)中的以下更新。
3.4.1. 公告列表
此 Red Hat OpenStack Platform (RHOSP)发行版本包括以下公告:
- RHBA-2023:5134
- OSP 17.1 的容器发布
- RHBA-2023:5135
- OSP 17.1 组件发行版本
- RHBA-2023:5136
- OSP 17.1 的容器发布
- RHBA-2023:5137
- Red Hat OpenStack Platform 17.1 RHEL 9 部署镜像
- RHBA-2023:5138
- OSP 17.1 组件发行版本
3.4.2. 程序错误修复
此 Red Hat OpenStack Platform (RHOSP)发行版本中解决了这些程序错误:
- BZ#2184834
-
在此次更新之前,块存储 API 支持通过在 volume-create 请求中传递参数来创建块存储 multi-attach 卷,即使此方法创建多附件卷已被删除,因为它不安全,因为它不安全,并可在后端上创建多附件卷时导致数据丢失。
openstack
和cinder
CLI 仅支持使用 multi-attach 卷类型创建一个多附件卷。在这个版本中,块存储 API 只支持使用 multi-attach volume-type 创建多附件卷。因此,一些用于工作的块存储 API 请求将被拒绝,并带有 400 (Bad Request)响应代码,以及一个信息性错误消息。 - BZ#2222543
在这个版本中,在替换 bootstrap Controller 节点后对 OVN 数据库操作进行负面影响。在此次更新之前,您无法使用原始 bootstrap Controller 节点主机名和 IP 地址替换 Controller 节点,因为名称重复使用会导致 OVN 数据库 RAFT 集群出现问题。
现在,您可以将原始主机名和 IP 地址用于替换 Controller 节点。
- BZ#2222589
- 在此次更新之前,在从 RHOSP 16.2 升级到 17.1 时,director 升级脚本会在使用 IPv6 的 director 部署的 Ceph Storage 环境中将 Red Hat Ceph Storage 4 升级到 5 时停止执行。这个问题已在 RHOSP 17.1.1. 中解决。
- BZ#2224527
- 在此次更新之前,当 RADOS 网关(RGW)部署为 director 部署的 Red Hat Ceph Storage 的一部分时,RHOSP 16.2 升级到 17.1 的升级过程会失败,因为 HAProxy 不会在下次堆栈更新时重新启动。这个问题已在 Red Hat Ceph Storage 5.3.5 中解决,不再影响 RHOSP 升级。
- BZ#2226366
-
在此次更新之前,当
重新使用
Red Hat Ceph Storage (RHCS)卷将卷存储在与当前位置不同的池中时,数据可能会损坏或丢失。在这个版本中,块存储 RHCS 后端解决了这个问题。 - BZ#2227199
在此次更新之前,在使用带有 OVN 服务供应商驱动程序的负载均衡服务(octavia)的 RHOSP 17.1 环境中,负载均衡器健康检查浮动 IP 地址(FIP)没有正确填充协议端口。对 FIP 的请求被错误地分发到位于"ERROR"状态中的负载均衡器成员。
在这个版本中,这个问题已被解决,对浮动 IP 地址(FIP)的任何新的负载均衡器健康检查都会使用协议端口正确填充。如果在部署此更新前创建了健康监控器,您必须重新创建它们来解决这个问题。
- BZ#2229750
- 在此次更新之前,在创建块存储卷备份时指定可用区(AZ)时,AZ 会被忽略,这可能会导致备份失败。在这个版本中,块存储备份服务解决了这个问题。
- BZ#2229761
-
在此次更新之前,
ovn_controller
和ovn_dbs
的部署步骤中有一个竞争条件,这会导致在ovn_controller 前升级
,重启到新版本会导致数据包丢失的错误。在 RHOSP 17.1.1 中,这个问题已被解决。ovn_dbs
。如果在ovn_dbs
之前没有升级 'ovn_controller - BZ#2229767
-
在此次更新之前,当您在从 RHOSP 16.2 升级到 17.1 时将 Red Hat Ceph Storage 4 升级到 5 时,overcloud 升级会失败,因为与
ceph-nfs-pacemaker
关联的容器停机,会影响共享文件系统服务(manila)。这个问题已在 RHOSP 17.1.1. 中解决。
3.4.3. 功能增强
此 Red Hat OpenStack Platform (RHOSP)发行版本包括以下改进:
- BZ#2210151
-
在 RHOSP 17.1.1 中,RHOSP Orchestration 服务(heat)参数
FrrBgpAsn
现在可以按角色设置,而不是成为使用 RHOSP 动态路由的 RHOSP 17.1 环境的全局参数。 - BZ#2229026
在 RHOSP 17.1.1 中,
tripleo_frr_bgp_peers
角色特定参数现在可以用来为 Free Range Routing (FRR)指定 IP 地址或主机名来对等参数。示例
ControllerRack1ExtraGroupVars: tripleo_frr_bgp_peers: ["172.16.0.1", "172.16.0.2"]
3.4.4. 技术预览
本节中列出的项目在此 Red Hat OpenStack Platform (RHOSP)发行版本中作为技术预览提供。有关技术预览状态范围的详情,以及相关的支持影响,请参阅 https://access.redhat.com/support/offerings/techpreview/。
- BZ#1813561
- 在这个版本中,负载均衡服务(octavia)使用应用程序层协议 Negotiation (ALPN)支持 HTTP/2 负载均衡,用于通过传输层安全(TLS)启用的监听程序和池。HTTP/2 协议通过更快地加载页面来提高性能。
- BZ#1848407
- 在 RHOSP 17.1 中,负载均衡服务(octavia)中的流控制传输协议(SCTP)提供了一个技术预览。用户可以在负载均衡器中创建 SCTP 侦听程序并附加 SCTP 池。
- BZ#2211796
此发行版本包括可选功能的技术预览,可用于定义自定义路由器类别,并使用自定义路由器类型创建路由器。
如需更多信息,请参阅使用路由器类型创建自定义虚拟路由器。
- BZ#2217663
- 在 RHOSP 17.1 中,VF-LAG 传输哈希策略卸载提供了一个技术预览,它允许在 NIC 硬件上进行负载均衡以卸载流量/流。这个哈希策略仅适用于 layer3+4 基础散列。
3.4.5. 已知问题
目前,Red Hat OpenStack Platform (RHOSP)中存在这些已知问题:
- BZ#2108212
如果您在迁移到 OVN 机制驱动程序的过程中使用 IPv6 连接到实例,则当 ML2/OVS 服务停止时,与实例的连接可能会延迟到几分钟。
在迁移到 OVN 机制驱动程序时,IPv6 的路由器广告守护进程
radvd
会停止。在停止radvd
时,路由器公告将不再广播。这个广播中断会导致实例连接在 IPv6 上丢失。新 ML2/OVN 服务启动后,会自动恢复 IPv6 通信。临时解决方案: 要避免潜在的中断,请使用 IPv4。
- BZ#2126725
- 硬编码的证书位置独立于用户提供的值运行。在带有自定义证书位置的部署期间,服务不会从 API 端点检索信息,因为传输层安全(TLS)验证失败。
- BZ#2144492
- 如果您将带有分布式虚拟路由(DVR)的 RHOSP 17.1.0 ML2/OVS 部署迁移到 ML2/OVN,则 ML2/OVN 迁移过程中发生的浮动 IP (FIP)停机时间可能会超过 60 秒。
- BZ#2151290
在 RHOSP 17.1.1 中,director 不允许自动配置 NS 记录以匹配父的 NS 记录。临时解决方案:在以后的发行版本中提供了自动临时解决方案,管理员可以手动更改位于 undercloud 的
/usr/share/ansible/roles/designate_bind_pool/templates/
中的编排服务(heat)模板文件。在 Jinja 模板(pool.yaml.j2)
中,在包含ns_records
的行后删除代码,直到下一个空行(行 13-16)),并为其基础架构插入适当的值。最后,管理员应重新部署 overcloud。示例
ns_records: - hostname: ns1.desiexample.com priority: 1 - hostname: ns2.desiexample.com priority: 2
- BZ#2160481
在使用 BGP 动态路由的 RHOSP 17.1 环境中,目前存在一个已知问题:浮动 IP (FIP)端口转发失败。
配置 FIP 端口转发时,发送到带有与 FIP 相等的目标 IP 的特定目标端口的数据包将从 RHOSP 网络服务(neutron)端口重定向到内部 IP。无论使用的协议是什么,都会出现这种情况:TCP、UDP 等。
配置 BGP 动态路由时,不公开执行 FIP 端口转发的路由,这些数据包无法访问其最终目的地。
目前,还没有临时解决方案。
- BZ#2163477
- 在使用 BGP 动态路由的 RHOSP 17.1 环境中,目前存在一个已知问题影响到提供商网络的实例。RHOSP 计算服务无法将从其中一个实例发送到多播 IP 地址目的地的数据包。因此,订阅多播组的实例无法接收发送到它们的数据包。其原因是 overcloud 节点上没有正确配置 BGP 多播路由。目前,还没有临时解决方案。
- BZ#2167428
在 RHOSP 17.1.1 中,在新部署中存在一个已知问题:当
代理通知服务
初始化时,RHOSP Identity 服务(keystone)通常不可用。这可防止 ceilometer 发现 gnocchi 端点。因此,指标不会发送到 gnocchi。临时解决方案:重启 Controller 节点上的 agent-notification 服务:
$ sudo systemctl restart tripleo_ceilometer_agent_notification.service
- BZ#2178500
- 如果在使用 nova-manage CLI 时卷刷新失败,这会导致实例保持锁定状态。
- BZ#2180542
Pacemaker 控制的
ceph-nfs
资源需要一个运行时目录来存储某些进程数据。安装或升级 RHOSP 时会创建该目录。目前,重启 Controller 节点会删除目录,在 Controller 节点重启时不会恢复ceph-nfs
服务。如果所有 Controller 节点都已重启,ceph-nfs
服务会永久失败。临时解决方案:如果重启 Controller 节点,登录到 Controller 节点并创建
/var/run/ceph
目录:$ mkdir -p /var/run/ceph
在所有已重新引导的 Controller 节点上重复此步骤。如果在创建目录后
ceph-nfs-pacemaker
服务已标记为失败,请从任何 Controller 节点执行以下命令:$ pcs resource cleanup
- BZ#2180883
目前,当每天 Logrotate 归档所有日志文件时,rsyslog 会停止将日志发送到 Elasticsearch。
临时解决方案:在部署过程中将 "RsyslogReopenOnTruncate: true" 添加到环境文件中,以便 Rsyslog 重新打开日志轮转上的所有日志文件。
目前,RHOSP 17.1 随 puppet-rsyslog 模块一同提供,这会导致 Director 配置 rsyslog。
临时解决方案:在部署 rsyslog 之前,在
/usr/share/openstack-tripleo-heat-templates/deployment/logging/rsyslog-container-puppet.yaml
中手动应用补丁 [1]。[1] https://github.com/openstack/tripleo-heat-templates/commit/ce0e3a9a94a4fce84dd70b6098867db1c86477fb
- BZ#2192913
在启用了 DVR 的 ML2/OVN 或 ML2/OVS 的 RHOSP 环境中,连接到不同租户网络的实例之间的 east/west 流量会产生大量到光纤。
因此,这些实例之间的数据包不仅到达运行这些实例的 Compute 节点,还到达任何其他 overcloud 节点。
这可能导致对网络的影响,这可能是安全风险,因为光纤在任何位置发送流量。
这个错误将在 FDP 以后的发行版本中解决。您不需要执行 RHOSP 更新来获取 FDP 修复。
- BZ#2196291
- 目前,自定义 SRBAC 规则不允许非管理员用户列出策略规则。因此,非管理员用户无法列出或管理这些规则。目前的解决方法包括禁用 SRBAC,或修改 SRBAC 自定义规则以允许此操作。
- BZ#2203785
-
目前,有一个权限问题,导致 collectd sensubility 在重启一个裸机节点后停止工作。因此,sensubility 会停止报告容器健康状况。临时解决方案:重新引导 overcloud 节点后,在节点上手动运行以下命令:
sudo podman exec -it collectd setfacl -R -m u:collectd:rwx /run/podman
- BZ#2210319
目前,RHEL 9.2 中的 Retbleed 漏洞缓解可能会导致 Intel Skylake CPU 上使用 Data Plane Development Kit (OVS-DPDK)的 Open vSwitch 的性能下降。
只有在 BIOS 中禁用了 C-states,超线程被启用,OVS-DPDK 只使用一个给定内核的超线程时,才会发生此性能回归。
临时解决方案:将核心的超线程分配给 OVS-DPDK 或将运行 DPDK 的 SRIOV 客户机(如 NFV 配置指南中的推荐)。
- BZ#2210873
-
在 RHOSP 17.1.1 Red Hat Ceph Storage (RHCS)环境中,设置 crush 规则会失败,并显示
assimilate.conf not found
错误。这个问题将在后续 RHOSP 发行版本中解决。 - BZ#2213126
缓冲区超过安全组日志条目的日志队列有时会在达到指定限制前停止接受条目。作为临时解决方案,您可以设置超过您要保存的条目数的队列长度。
您可以使用参数
NeutronOVNLoggingRateLimit
设置每秒的最大日志条目数。如果日志条目创建超过那个速率,则过量在队列中会被缓冲到您在NeutronOVNLoggingBurstLimit
中指定的日志条目数。这个问题在突发的第一秒中尤其明显。在较长的突发(如 60 秒)中,速率限值更大,并补偿突发限制。因此,这个问题在短的突发中具有最大比例的影响。
临时解决方案:在比目标值高的值设置
NeutronOVNLoggingBurstLimit
。根据需要观察和调整。- BZ#2213742
UDP 池中的 TCP 运行状况监视器可能无法按预期工作,具体取决于 monitor 使用的端口号。另外,池成员和运行状况监视器的状态也不正确。这是因为 SELinux 规则破坏 UDP 池中特定端口号上使用 TCP 健康监控器。
临时解决方案(如果有):当前没有临时解决方案。
- BZ#2216021
带有 OVN 机制驱动程序的 RHOSP 17.1 不支持记录每个端口的流事件,或使用
网络日志 create
命令的--target
选项。RHOSP 17.1 支持使用
network log create
命令的--resource
选项为每个安全组记录流事件。请参阅 RHOSP 的网络中的"Logging security group action "。- BZ#2216130
-
目前,
puppet-ceilometer
不填充 Compute 节点上的数据收集服务(ceilometer)配置中的tenant_name_discovery
参数。这会导致无法识别Project name
和User name
字段。目前,这个问题还没有临时解决方案。 - BZ#2217867
- 目前在使用硬件卸载时,Nvidia ConnectX-5 和 ConnectX-6 NIC 有一个已知问题,其中 PF 上的一些卸载流可能会导致关联的 VF 上的临时性能问题。此问题通过 LLDP 和 VRRP 流量特别观察到。
- BZ#2218596
- 如果您的原始 ML2/OVS 环境使用 iptables_hybrid 防火墙和中继端口,则不要迁移到 OVN 机制驱动程序。在迁移的环境中,如果您在发生硬重启、启动和停止节点或节点重启后重新创建带有中继的实例,则实例网络问题。作为临时解决方案,您可以在迁移前从 iptables 混合防火墙切换到 OVS 防火墙。
- BZ#2219574
- 数据收集服务(ceilometer)不提供默认的缓存后端,这可能会导致某些服务在轮询指标时超载。
- BZ#2219603
在 RHOSP 17.1 GA 中,当启用了安全基于角色的访问控制(sRBAC)时,DNS 服务(designate)会被错误配置。当前的 sRBAC 策略包含指定不正确的规则,且必须修正指定才能正常工作。可能的解决方法是在 undercloud 服务器上应用以下补丁并重新部署 overcloud:
https://review.opendev.org/c/openstack/tripleo-heat-templates/+/888159
- BZ#2219613
-
在 RHOSP 17.1 分布式虚拟路由器(DVR)环境中,对于
DOWN
状态的端口,external_mac
变量被错误地删除,这会导致短期内集中式流量。 - BZ#2219830
在 RHOSP 17.1 中,有临时数据包丢失的问题,其中硬件中断请求(IRQ)会在 OVS-DPDK PMD 线程或运行 DPDK 应用程序的客户机上出现非自愿上下文切换。
此问题是在部署过程中置备大量 VF 的结果。VF 需要 IRQ,每个必须绑定到物理 CPU。当没有足够的内务 CPU 处理 IRQ 的容量时,
irqbalance
无法绑定所有它们,而 IRQ 在隔离的 CPU 上进行绑定。临时解决方案:您可以尝试一个或多个这些操作:
- 减少置备的 VF 数量,以避免将未使用的 VF 保持绑定到其默认 Linux 驱动程序。
- 增加内务 CPU 的数量,以处理所有 IRQ。
- 强制关闭未使用的 VF 网络接口,以避免 IRQ 中断隔离的 CPU。
- 禁用未使用、VF 网络接口上的多播和广播流量,以避免 IRQ 中断隔离的 CPU。
- BZ#2220808
-
在 RHOSP 17.1 中,数据收集服务(ceilometer)不报告 airflow 指标存在一个已知问题。这是因为数据收集服务缺少 gnocchi 资源类型
hardware.ipmi.fan
。目前,还没有临时解决方案。 - BZ#2220887
- 数据收集服务(ceilometer)不会过滤单独的电源和当前指标。
- BZ#2220930
在运行 DNS 服务(designate)的 RHOSP 17.1 中,存在一个已知问题:如果配置更改,则不会重启
bind9
和unbound
服务。临时解决方案:在每个控制器上运行以下命令来手动重启容器:
$ sudo systemctl restart tripleo_designate_backend_bind9 $ sudo systemctl restart tripleo_unbound
- BZ#2222420
在使用运行 RHOSP DNS 服务(指定)的 IPv6 网络的 RHOSP 17.1.1 环境中,BIND 9 后端服务器可能会拒绝 DNS 通知消息。造成这个问题的原因是,同一接口上同一网络上同一网络通常会有多个 IP 地址,并且可能会显示消息与指定 Worker 服务以外的源重复。
临时解决方案:应用以下补丁:
- https://review.opendev.org/c/openstack/tripleo-ansible/+/888300
https://review.opendev.org/c/openstack/tripleo-heat-templates/+/888786
应用补丁后,通过运行以下命令手动重启 BIND 9 服务器中的配置:
$ sudo systemctl restart tripleo_designate_backend_bind9
- BZ#2222683
目前,以下部署架构不支持 Multi-RHEL:
- Edge (DCN)
- ShiftOnStack
基于 director 的 director 部署
临时解决方案:在运行列出的构架之一时,在 RHOSP 部署中只使用一个 RHEL 版本。
- BZ#2223294
当执行从 RHOSP 16.2 升级到 17.1 GA 时,存在一个已知问题。集合代理
collectd-sensubility
无法在 RHEL 8 Compute 节点上运行。临时解决方案:在受影响的节点上编辑文件,
/var/lib/container-config-scripts/collectd_check_health.py
,并将第 26 行的"healthy: .State.Health.Status}"
替换为"healthy: .State.Healthcheck.Status}"/
。- BZ#2223916
在使用 ML2/OVN 机制驱动程序的 RHOSP 17.1 GA 环境中,浮动 IP 端口转发无法正常工作。造成这个问题的原因是,当使用 FIP 时 VLAN 和扁平网络分发南北网络流量,而是应在 Controller 或 Networker 节点上集中 FIP 端口转发。
临时解决方案: 要通过集中式网关节点解决这个问题并强制 FIP 端口转发,可将 RHOSP 编排服务(heat)参数
NeutronEnableDVR
设置为false
,或者使用 Geneve 而不是 VLAN 或扁平项目网络。- BZ#2224236
在这个 RHOSP 发行版本中,存在一个已知问题:使用 Intel X710 和 E810 系列控制器虚拟功能(VF)的 SR-IOV 接口可能会遇到涉及链接状态流的网络连接问题。受影响的客户机内核版本有:
-
RHEL 8.7.0
8.7.3 (计划没有修复)。生命周期结束。) -
RHEL 8.8.0
8.8.2 (在 8.8.3 版本中计划使用Fix) -
RHEL 9.2.0
9.2.2 (版本 9.2.3 中计划使用Fix) 上游 Linux 4.9.0
6.4 65534 (在 6.5. 中计划使用Fix) 临时解决方案:除了使用未影响的客户机内核外,还有其他问题。
-
RHEL 8.7.0
- BZ#2225205
-
过时的升级编配逻辑会在快速转发升级(FFU)过程中覆盖现有的 Pacemaker 身份验证密钥,防止 Pacemaker 在实例 HA 被启用时连接到 Compute 节点上运行的
pacemaker_remote
。因此,在 Compute 节点上运行的升级会失败,且从中央集群无法访问 Compute 节点上运行的pacemaker_remote
。如果配置了 Instance HA,请联系红帽支持,以接收有关如何执行 FFU 的说明。 - BZ#2227360
- NetApp NFS 驱动程序的镜像缓存清理任务可能会导致其他块存储服务中无法预计的性能下降。当前没有解决此问题的方法。
- BZ#2229937
-
当
collectd sensubility
无法创建发送者时,它不会关闭到发送者的链接。长时间运行的、失败的开放链接可能会导致总线出现问题,这会导致collectd sensubility
停止工作。临时解决方案:重启受影响 overcloud 节点上的collectd
容器,以恢复collectd sensubility
。 - BZ#2231378
- 如果您选择 Red Hat Ceph Storage 作为 Block Storage (cinder)备份服务存储库的后端,则您只能将备份卷恢复到基于 RBD 的块存储后端。目前还没有临时解决方案。
- BZ#2231893
元数据服务在多个尝试启动 HAProxy 子容器失败时,元数据服务可能会不可用。元数据代理记录类似:"ProcessExecutionError: Exit code: 125; Stdin: ; Stdout: Starting a new child container neutron-haproxy-ovnmeta-<uuid>" 的错误消息。
临时解决方案:运行
podman kill <_container name_>
以停止有问题的 haproxy 子容器。- BZ#2231960
- 当块存储卷使用 Red Hat Ceph Storage 后端时,当从这个卷创建快照时,无法删除卷,然后从此快照中创建卷克隆。在这种情况下,当卷克隆存在时,您无法删除原始卷。
- BZ#2232562
OVNAvailabilityZone Role
参数不被识别为预期,这会导致在 OVN 中可用区配置失败。临时解决方案:使用
OVNCMSOptions
参数配置 OVN 可用区。例如:ControllerParameters: OVNCMSOptions: 'enable-chassis-as-gw,availability-zones=az1'
- BZ#2233487
- 在使用 RHOSP 动态路由的 RHOSP 17.1 GA 环境中,存在一个已知问题:使用带有 OVN 供应商驱动程序的 RHOSP 负载均衡服务创建负载均衡器可能会失败。当控制器节点之间存在延迟时,可能会出现此故障。没有临时解决方案。
- BZ#2235621
-
当从
registry.redhat.io
拉取镜像时,RHOSP 从 16.2 升级到 17.1 会失败,因为升级 playbook 不包括 podman registry 登录任务。请联系您的红帽支持代表以获得热修补代码。后续 RHOSP 发行版本中会进行修复。 - BZ#2237245
在使用动态路由的 RHOSP 17.1 环境中,更新到 RHOSP 17.1.1 无法正常工作。具体来说,没有更新 Free Range Routing (FRR)组件。
临时解决方案:在更新 RHOSP 17.1 前,在 undercloud 上应用以下补丁:
- BZ#2237251
在使用带有健康监控器的 OVN 供应商驱动程序的 RHOSP 17.1.1 环境中,池负载均衡状态会错误地将 fake 成员显示为
ONLINE
。如果没有使用运行状况监控器,则状态假的成员会显示NO_MONITOR
的正常操作。当成员无效时,可能会发生假的负载平衡池成员,例如当成员 IP 地址中存在拼写错误时。为池配置的运行状况监视器不会对假的成员执行健康检查,当计算池状态时,全局操作状态会错误地将假的成员视为
ONLINE
。另外,如果池中的所有其他成员都处于ERROR
操作状态,则会将不正确的DEGRADED
操作状态分配给池而不是ERROR
,因为池的成员是具有不正确的ONLINE
状态的假成员。临时解决方案:目前,这个问题还没有临时解决方案。
- BZ#2237290
网络服务(neutron)不会阻止您禁用或删除网络配置文件,即使该配置集是路由器正在使用的类别的一部分。禁用或删除配置集可能会破坏路由器的正确操作。
临时解决方案:在禁用或删除网络配置集前,请确保它不是路由器当前使用的类别的一部分。