12.8. 实时迁移附加了 Mellanox 虚拟功能的虚拟机
作为技术预览,您可以实时迁移附加了 Mellanox 网络设备的虚拟功能(VF)的虚拟机(VM)。目前,这只在使用 Mellanox CX-7 网络设备时才有可能。Mellanox CX-7 网络设备上的 VF 使用一个新的 mlx5_vfio_pci
驱动程序,它添加了实时迁移所需的功能,并且 libvirt
自动将新驱动程序绑定到 VF。
限制
目前,当实时迁移附加了 Mellanox 虚拟功能的虚拟机时,无法使用一些虚拟化功能:
- 计算虚拟机的脏内存页生成率。
- 使用复制后实时迁移。
- 在虚拟机中使用虚拟 I/O 内存管理单元(vIOMMU)设备。
这个功能只作为 技术预览 包含在 RHEL 9 中,这意味着它不被支持。
先决条件
您有一个 Mellanox CX-7 网络设备,其固件版本等于或大于 28.36.1010。
有关固件版本的详情,请参阅 Mellanox 文档。
mstflint
软件包已安装在源和目标主机上:# dnf install mstflint
Mellanox CX-7 网络设备的
VF_MIGRATION_MODE
设置为MIGRATION_ENABLED
:# mstconfig -d <device_pci_address> query | grep -i VF_migration VF_MIGRATION_MODE MIGRATION_ENABLED(2)
您可以使用以下命令将
VF_MIGRATION_MODE
设置为MIGRATION_ENABLED
:# mstconfig -d <device_pci_address> set VF_MIGRATION_MODE=2
openvswitch
软件包已安装在源和目标主机上:# dnf install openvswitch
您的主机的 CPU 和固件支持 I/O 内存管理单元(IOMMU)。
- 如果使用 Intel CPU,它必须支持 Intel 的直接 I/O 虚拟化技术(VT-d)。
- 如果使用 AMD CPU,则必须支持 AMD-Vi 功能。
主机系统使用访问控制服务(ACS)来为 PCIe 拓扑提供直接内存访问(DMA)隔离。与系统供应商一起验证这一点。
如需更多信息,请参阅实施 SR-IOV 的硬件注意事项。
用于创建 VF 的主机网络接口正在运行。例如,要激活 eth1 接口,并验证它是否正在运行,请使用以下命令:
# ip link set eth1 up # ip link show eth1 8: eth1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP mode DEFAULT qlen 1000 link/ether a0:36:9f:8f:3f:b8 brd ff:ff:ff:ff:ff:ff vf 0 MAC 00:00:00:00:00:00, spoof checking on, link-state auto vf 1 MAC 00:00:00:00:00:00, spoof checking on, link-state auto vf 2 MAC 00:00:00:00:00:00, spoof checking on, link-state auto vf 3 MAC 00:00:00:00:00:00, spoof checking on, link-state auto
要使 SR-IOV 设备分配正常工作,必须在主机 BIOS 和内核中启用 IOMMU 功能。要做到这一点:
在 Intel 主机上,为直接 I/O (VT-d)启用 Intel 虚拟化技术:
使用
intel_iommu=on
和iommu=pt
参数重新生成 GRUB 配置:# grubby --args="intel_iommu=on iommu=pt" --update-kernel=ALL
- 重启主机。
在 AMD 主机上启用 AMD-Vi:
使用
iommu=pt
参数重新生成 GRUB 配置:# grubby --args="iommu=pt" --update-kernel=ALL
- 重启主机。
- 源主机和目标主机都使用 KVM 管理程序。
-
源主机和目标主机可以通过网络相互访问。使用
ping
工具进行验证。 目标主机上已打开了以下端口:
- 使用 SSH 连接到目标主机需要端口 22。
- 使用 TLS 连接到目标主机需要端口 16509。
- 使用 TCP 连接到目标主机需要端口 16514。
- QEMU 需要端口 49152-49215 ,来传输内存和磁盘迁移数据。
- 源主机和目标主机正在使用允许迁移的操作系统和机器类型。要确保情况是这种情况,请查看支持的虚拟机迁移主机。
- 虚拟机必须与目标主机的 CPU 功能兼容。要确保情况如此,请参阅验证虚拟机迁移的主机 CPU 兼容性。
要迁移的虚拟机的磁盘镜像位于源主机和目标主机都可访问的单独的网络位置。这在离线迁移中是可选的,但在迁移运行的虚拟机时是必需的。
有关设置这样的共享虚拟机存储的步骤,请参阅与其他主机共享虚拟机磁盘镜像。
- 迁移正在运行的虚拟机时,您的网络带宽必须高于虚拟机生成脏内存页面的速度。
对应于连接协议的虚拟网络套接字已启用。
在执行虚拟机迁移时,源主机上的
virsh
客户端可以使用多种协议之一连接到目标主机上的 libvirt 守护进程。以下流程中的示例使用 SSH 连接,但您可以选择不同的连接。如果您希望 libvirt 使用 SSH 连接,请确保启用
virtqemud
套接字并在目标主机上运行。# systemctl enable --now virtqemud.socket
如果您希望 libvirt 使用 TLS 连接,请确保启用
virtproxyd-tls
套接字并在目标主机上运行。# systemctl enable --now virtproxyd-tls.socket
如果您希望 libvirt 使用 TCP 连接,请确保
virtproxyd-tcp
套接字已经启用并在目标主机上运行。# systemctl enable --now virtproxyd-tcp.socket
流程
在源主机上,将 Mellanox 网络设备设置为
switchdev
模式。# devlink dev eswitch set pci/<device_pci_address> mode switchdev
在源主机上,在 Mellanox 设备上创建一个虚拟功能。
# echo 1 > /sys/bus/pci/devices/0000\:e1\:00.0/sriov_numvfs
文件路径的
/0000\:e1\:00.0/
部分基于设备的 PCI 地址。在示例中,其为:0000:e1:00.0
在源主机上,将 VF 与其驱动程序解绑。
# virsh nodedev-detach <vf_pci_address> --driver pci-stub
您可以使用以下命令查看 VF 的 PCI 地址:
# lshw -c network -businfo Bus info Device Class Description =========================================================================== pci@0000:e1:00.0 enp225s0np0 network MT2910 Family [ConnectX-7] pci@0000:e1:00.1 enp225s0v0 network ConnectX Family mlx5Gen Virtual Function
在源主机上,启用 VF 的迁移功能。
# devlink port function set pci/0000:e1:00.0/1 migratable enable
在本例中,
pci/0000:e1:00.0/1
指向带有给定 PCI 地址的 Mellanox 设备上的第一个 VF。在源主机上,为 VF 的迁移配置 Open vSwitch (OVS)。如果 Mellanox 设备处于
switchdev
模式,则无法通过网络传输数据。确保
openvswitch
服务正在运行。# systemctl start openvswitch
启用硬件卸载,以提高网络性能。
# ovs-vsctl set Open_vSwitch . other_config:hw-offload=true
增加最大闲置时间,以确保网络连接在迁移过程中保持打开状态。
# ovs-vsctl set Open_vSwitch . other_config:max-idle=300000
在 OVS 实例中创建一个新网桥。
# ovs-vsctl add-br <bridge_name>
重新启动
openvswitch
服务。# systemctl restart openvswitch
将物理 Mellanox 设备添加到 OVS 网桥。
# ovs-vsctl add-port <bridge_name> enp225s0np0
在本例中,
<bridge_name>
是您在步骤 d 中创建的网桥的名称,enp225s0np0
是 Mellanox 设备的网络接口的名称。将 Mellanox 设备的 VF 添加到 OVS 网桥。
# ovs-vsctl add-port <bridge_name> enp225s0npf0vf0
在本例中,
<bridge_name>
是您在步骤 d 中创建的网桥的名称,enp225s0npf0vf0
是 VF 的网络接口的名称。
- 在 目标主机上 重复步骤 1-5。
在源主机上,打开一个新文件,如
mlx_vf.xml
,并添加以下 VF 的 XML 配置:<interface type='hostdev' managed='yes'> <mac address='52:54:00:56:8c:f7'/> <source> <address type='pci' domain='0x0000' bus='0xe1' slot='0x00' function='0x1'/> </source> </interface>
这个示例将 VF 的 pass-through 配置为虚拟机的网络接口。确保 MAC 地址是唯一的,并在源主机上使用 VF 的 PCI 地址。
在源主机上,将 VF XML 文件附加到虚拟机。
# virsh attach-device <vm_name> mlx_vf.xml --live --config
在本例中,
mlx_vf.xml
是带有 VF 配置的 XML 文件的名称。使用--live
选项将设备附加到正在运行的虚拟机上。在源主机上,启动正在运行的带有附加 VF 的虚拟机的实时迁移。
# virsh migrate --live --domain <vm_name> --desturi qemu+ssh://<destination_host_ip_address>/system
验证
在迁移的虚拟机中,查看 Mellanox VF 的网络接口名称。
# ifconfig eth0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500 inet 192.168.1.10 netmask 255.255.255.0 broadcast 192.168.1.255 inet6 fe80::a00:27ff:fe4e:66a1 prefixlen 64 scopeid 0x20<link> ether 08:00:27:4e:66:a1 txqueuelen 1000 (Ethernet) RX packets 100000 bytes 6543210 (6.5 MB) RX errors 0 dropped 0 overruns 0 frame 0 TX packets 100000 bytes 6543210 (6.5 MB) TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0 enp4s0f0v0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500 inet 192.168.3.10 netmask 255.255.255.0 broadcast 192.168.3.255 inet6 fe80::a00:27ff:fe4e:66c3 prefixlen 64 scopeid 0x20<link> ether 08:00:27:4e:66:c3 txqueuelen 1000 (Ethernet) RX packets 200000 bytes 12345678 (12.3 MB) RX errors 0 dropped 0 overruns 0 frame 0 TX packets 200000 bytes 12345678 (12.3 MB) TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
在迁移的虚拟机中,检查 Mellanox VF 是否正常工作,例如:
# ping -I <VF_interface_name> 8.8.8.8 PING 8.8.8.8 (8.8.8.8) from 192.168.3.10 <VF_interface_name>: 56(84) bytes of data. 64 bytes from 8.8.8.8: icmp_seq=1 ttl=57 time=27.4 ms 64 bytes from 8.8.8.8: icmp_seq=2 ttl=57 time=26.9 ms --- 8.8.8.8 ping statistics --- 2 packets transmitted, 2 received, 0% packet loss, time 1002ms rtt min/avg/max/mdev = 26.944/27.046/27.148/0.102 ms
其它资源