搜索

12.8. 实时迁移附加了 Mellanox 虚拟功能的虚拟机

download PDF

作为技术预览,您可以实时迁移附加了 Mellanox 网络设备的虚拟功能(VF)的虚拟机(VM)。目前,这只在使用 Mellanox CX-7 网络设备时才有可能。Mellanox CX-7 网络设备上的 VF 使用一个新的 mlx5_vfio_pci 驱动程序,它添加了实时迁移所需的功能,并且 libvirt 自动将新驱动程序绑定到 VF。

限制

目前,当实时迁移附加了 Mellanox 虚拟功能的虚拟机时,无法使用一些虚拟化功能:

  • 计算虚拟机的脏内存页生成率。
  • 使用复制后实时迁移。
  • 在虚拟机中使用虚拟 I/O 内存管理单元(vIOMMU)设备。
重要

这个功能只作为 技术预览 包含在 RHEL 9 中,这意味着它不被支持。

先决条件

  • 您有一个 Mellanox CX-7 网络设备,其固件版本等于或大于 28.36.1010

    有关固件版本的详情,请参阅 Mellanox 文档

  • mstflint 软件包已安装在源和目标主机上:

    # dnf install mstflint
  • Mellanox CX-7 网络设备的 VF_MIGRATION_MODE 设置为 MIGRATION_ENABLED

    # mstconfig -d <device_pci_address> query | grep -i VF_migration
    
    VF_MIGRATION_MODE                           MIGRATION_ENABLED(2)
    • 您可以使用以下命令将 VF_MIGRATION_MODE 设置为 MIGRATION_ENABLED

      # mstconfig -d <device_pci_address> set VF_MIGRATION_MODE=2
  • openvswitch 软件包已安装在源和目标主机上:

    # dnf install openvswitch
  • 您的主机的 CPU 和固件支持 I/O 内存管理单元(IOMMU)。

    • 如果使用 Intel CPU,它必须支持 Intel 的直接 I/O 虚拟化技术(VT-d)。
    • 如果使用 AMD CPU,则必须支持 AMD-Vi 功能。
  • 主机系统使用访问控制服务(ACS)来为 PCIe 拓扑提供直接内存访问(DMA)隔离。与系统供应商一起验证这一点。

    如需更多信息,请参阅实施 SR-IOV 的硬件注意事项

  • 用于创建 VF 的主机网络接口正在运行。例如,要激活 eth1 接口,并验证它是否正在运行,请使用以下命令:

    # ip link set eth1 up
    # ip link show eth1
    8: eth1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP mode DEFAULT qlen 1000
       link/ether a0:36:9f:8f:3f:b8 brd ff:ff:ff:ff:ff:ff
       vf 0 MAC 00:00:00:00:00:00, spoof checking on, link-state auto
       vf 1 MAC 00:00:00:00:00:00, spoof checking on, link-state auto
       vf 2 MAC 00:00:00:00:00:00, spoof checking on, link-state auto
       vf 3 MAC 00:00:00:00:00:00, spoof checking on, link-state auto
  • 要使 SR-IOV 设备分配正常工作,必须在主机 BIOS 和内核中启用 IOMMU 功能。要做到这一点:

    • 在 Intel 主机上,为直接 I/O (VT-d)启用 Intel 虚拟化技术:

      1. 使用 intel_iommu=oniommu=pt 参数重新生成 GRUB 配置:

        # grubby --args="intel_iommu=on iommu=pt" --update-kernel=ALL
      2. 重启主机。
    • 在 AMD 主机上启用 AMD-Vi:

      1. 使用 iommu=pt 参数重新生成 GRUB 配置:

        # grubby --args="iommu=pt" --update-kernel=ALL
      2. 重启主机。
  • 源主机和目标主机都使用 KVM 管理程序。
  • 源主机和目标主机可以通过网络相互访问。使用 ping 工具进行验证。
  • 目标主机上已打开了以下端口:

    • 使用 SSH 连接到目标主机需要端口 22。
    • 使用 TLS 连接到目标主机需要端口 16509。
    • 使用 TCP 连接到目标主机需要端口 16514。
    • QEMU 需要端口 49152-49215 ,来传输内存和磁盘迁移数据。
  • 源主机和目标主机正在使用允许迁移的操作系统和机器类型。要确保情况是这种情况,请查看支持的虚拟机迁移主机
  • 虚拟机必须与目标主机的 CPU 功能兼容。要确保情况如此,请参阅验证虚拟机迁移的主机 CPU 兼容性
  • 要迁移的虚拟机的磁盘镜像位于源主机和目标主机都可访问的单独的网络位置。这在离线迁移中是可选的,但在迁移运行的虚拟机时是必需的。

    有关设置这样的共享虚拟机存储的步骤,请参阅与其他主机共享虚拟机磁盘镜像

  • 迁移正在运行的虚拟机时,您的网络带宽必须高于虚拟机生成脏内存页面的速度。
  • 对应于连接协议的虚拟网络套接字已启用。

    在执行虚拟机迁移时,源主机上的 virsh 客户端可以使用多种协议之一连接到目标主机上的 libvirt 守护进程。以下流程中的示例使用 SSH 连接,但您可以选择不同的连接。

    • 如果您希望 libvirt 使用 SSH 连接,请确保启用 virtqemud 套接字并在目标主机上运行。

      # systemctl enable --now virtqemud.socket
    • 如果您希望 libvirt 使用 TLS 连接,请确保启用 virtproxyd-tls 套接字并在目标主机上运行。

      # systemctl enable --now virtproxyd-tls.socket
    • 如果您希望 libvirt 使用 TCP 连接,请确保 virtproxyd-tcp 套接字已经启用并在目标主机上运行。

      # systemctl enable --now virtproxyd-tcp.socket

流程

  1. 在源主机上,将 Mellanox 网络设备设置为 switchdev 模式。

    # devlink dev eswitch set pci/<device_pci_address> mode switchdev
  2. 在源主机上,在 Mellanox 设备上创建一个虚拟功能。

    # echo 1 > /sys/bus/pci/devices/0000\:e1\:00.0/sriov_numvfs

    文件路径的 /0000\:e1\:00.0/ 部分基于设备的 PCI 地址。在示例中,其为:0000:e1:00.0

  3. 在源主机上,将 VF 与其驱动程序解绑。

    # virsh nodedev-detach <vf_pci_address> --driver pci-stub

    您可以使用以下命令查看 VF 的 PCI 地址:

    # lshw -c network -businfo
    
    Bus info                     Device             Class           Description
    ===========================================================================
    pci@0000:e1:00.0  enp225s0np0    network        MT2910 Family [ConnectX-7]
    pci@0000:e1:00.1  enp225s0v0     network        ConnectX Family mlx5Gen Virtual Function
  4. 在源主机上,启用 VF 的迁移功能。

    # devlink port function set pci/0000:e1:00.0/1 migratable enable

    在本例中,pci/0000:e1:00.0/1 指向带有给定 PCI 地址的 Mellanox 设备上的第一个 VF。

  5. 在源主机上,为 VF 的迁移配置 Open vSwitch (OVS)。如果 Mellanox 设备处于 switchdev 模式,则无法通过网络传输数据。

    1. 确保 openvswitch 服务正在运行。

      # systemctl start openvswitch
    2. 启用硬件卸载,以提高网络性能。

      # ovs-vsctl set Open_vSwitch . other_config:hw-offload=true
    3. 增加最大闲置时间,以确保网络连接在迁移过程中保持打开状态。

      # ovs-vsctl set Open_vSwitch . other_config:max-idle=300000
    4. 在 OVS 实例中创建一个新网桥。

      # ovs-vsctl add-br <bridge_name>
    5. 重新启动 openvswitch 服务。

      # systemctl restart openvswitch
    6. 将物理 Mellanox 设备添加到 OVS 网桥。

      # ovs-vsctl add-port <bridge_name> enp225s0np0

      在本例中,<bridge_name> 是您在步骤 d 中创建的网桥的名称,enp225s0np0 是 Mellanox 设备的网络接口的名称。

    7. 将 Mellanox 设备的 VF 添加到 OVS 网桥。

      # ovs-vsctl add-port <bridge_name> enp225s0npf0vf0

      在本例中,<bridge_name> 是您在步骤 d 中创建的网桥的名称,enp225s0npf0vf0 是 VF 的网络接口的名称。

  6. 目标主机上 重复步骤 1-5。
  7. 在源主机上,打开一个新文件,如 mlx_vf.xml,并添加以下 VF 的 XML 配置:

     <interface type='hostdev' managed='yes'>
          <mac address='52:54:00:56:8c:f7'/>
          <source>
            <address type='pci' domain='0x0000' bus='0xe1' slot='0x00' function='0x1'/>
          </source>
     </interface>

    这个示例将 VF 的 pass-through 配置为虚拟机的网络接口。确保 MAC 地址是唯一的,并在源主机上使用 VF 的 PCI 地址。

  8. 在源主机上,将 VF XML 文件附加到虚拟机。

    # virsh attach-device <vm_name> mlx_vf.xml --live --config

    在本例中,mlx_vf.xml 是带有 VF 配置的 XML 文件的名称。使用 --live 选项将设备附加到正在运行的虚拟机上。

  9. 在源主机上,启动正在运行的带有附加 VF 的虚拟机的实时迁移。

    # virsh migrate --live --domain <vm_name> --desturi qemu+ssh://<destination_host_ip_address>/system

验证

  1. 在迁移的虚拟机中,查看 Mellanox VF 的网络接口名称。

    # ifconfig
    
    eth0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500
            inet 192.168.1.10  netmask 255.255.255.0  broadcast 192.168.1.255
            inet6 fe80::a00:27ff:fe4e:66a1  prefixlen 64  scopeid 0x20<link>
            ether 08:00:27:4e:66:a1  txqueuelen 1000  (Ethernet)
            RX packets 100000  bytes 6543210 (6.5 MB)
            RX errors 0  dropped 0  overruns 0  frame 0
            TX packets 100000  bytes 6543210 (6.5 MB)
            TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
    
    enp4s0f0v0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500
            inet 192.168.3.10  netmask 255.255.255.0  broadcast 192.168.3.255
            inet6 fe80::a00:27ff:fe4e:66c3  prefixlen 64  scopeid 0x20<link>
            ether 08:00:27:4e:66:c3  txqueuelen 1000  (Ethernet)
            RX packets 200000  bytes 12345678 (12.3 MB)
            RX errors 0  dropped 0  overruns 0  frame 0
            TX packets 200000  bytes 12345678 (12.3 MB)
            TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
  2. 在迁移的虚拟机中,检查 Mellanox VF 是否正常工作,例如:

    # ping -I <VF_interface_name> 8.8.8.8
    
    PING 8.8.8.8 (8.8.8.8) from 192.168.3.10 <VF_interface_name>: 56(84) bytes of data.
    64 bytes from 8.8.8.8: icmp_seq=1 ttl=57 time=27.4 ms
    64 bytes from 8.8.8.8: icmp_seq=2 ttl=57 time=26.9 ms
    
    --- 8.8.8.8 ping statistics ---
    2 packets transmitted, 2 received, 0% packet loss, time 1002ms
    rtt min/avg/max/mdev = 26.944/27.046/27.148/0.102 ms
Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.