第 13 章 为实例配置虚拟 GPU
该功能在此发行版本中作为技术预览提供,因此不享有红帽的全面支持。它只应用于测试,不应部署在生产环境中。有关技术预览功能的更多信息,请参阅覆盖范围详细信息。
要在实例上支持基于 GPU 的渲染,您可以根据可用的物理 GPU 设备和 hypervisor 类型定义和管理虚拟 GPU (vGPU)资源。您可以使用此配置更加有效地划分所有物理 GPU 设备之间的渲染工作负载,并更好地控制支持 vGPU 的实例。
要在 Compute (nova)服务中启用 vGPU,请创建您的云用户可以使用 vGPU 设备创建 Red Hat Enterprise Linux (RHEL)实例的类别。然后,每个实例可以使用与物理 GPU 设备对应的虚拟 GPU 设备支持 GPU 工作负载。
Compute 服务跟踪可用于每个主机上定义的 GPU 配置集的 vGPU 设备数量。计算服务根据类别将实例调度到这些主机,附加设备,并持续监控使用情况。删除实例时,计算服务会将 vGPU 设备重新添加到可用的池中。
红帽启用了在 RHOSP 中使用 NVIDIA vGPU,而无需支持例外。但是,红帽不为 NVIDIA vGPU 驱动程序提供技术支持。NVIDIA vGPU 驱动程序由 NVIDIA 提供并支持。您需要 NVIDIA 认证支持服务订阅来获取 NVIDIA vGPU 软件的支持。对于使用无法在支持的组件中重现问题的 NVIDIA vGPU 的问题,会应用以下支持政策:
- 当红帽不怀疑问题涉及第三方组件时,会应用正常的 支持范围 和红帽 SLA。
- 当红帽怀疑问题涉及第三方组件时,客户将遵循红帽 第三方支持和证书政策。如需更多信息,请参阅知识库文章 NVIDIA 支持。
13.1. 支持的配置和限制 复制链接链接已复制到粘贴板!
支持的 GPU 卡
有关支持的 NVIDIA GPU 卡列表,请参阅 NVIDIA 网站上的 虚拟 GPU 软件支持的产品。
使用 vGPU 设备的限制
- 每个 Compute 节点上只能启用一个 vGPU 类型。
- 每个实例只能使用一个 vGPU 资源。
- 不支持在主机之间实时迁移 vGPU 实例。
- 不支持删除 vGPU 实例。
如果您需要重新引导托管 vGPU 实例的 Compute 节点,则 vGPU 不会自动重新分配给重新创建的实例。在重新引导 Compute 节点前,您必须冷迁移实例,或者在重启后手动将每个 vGPU 分配给正确的实例。要手动分配每个 vGPU,您必须在重启前从 Compute 节点上运行的每个 vGPU 实例从实例 XML 检索
mdevUUID。您可以使用以下命令发现每个实例的mdevUUID:virsh dumpxml <instance_name> | grep mdev
# virsh dumpxml <instance_name> | grep mdevCopy to Clipboard Copied! Toggle word wrap Toggle overflow 将
<instance_name> 替换为 libvirt 实例名称OS-EXT-SRV-ATTR:instance_name,在/servers请求中返回到 Compute API。- 由于 libvirt 限制,不支持对支持 vGPU 的实例暂停操作。相反,您可以 snapshot 或 shelve 实例。
- 默认情况下,计算主机上的 vGPU 类型不会公开给 API 用户。要授予访问权限,将主机添加到主机聚合中。如需更多信息,请参阅创建和管理主机聚合。
- 如果使用 NVIDIA 加速器硬件,您必须遵守 NVIDIA 许可要求。例如,Nvidia vGPU GRID 需要许可服务器。有关 NVIDIA 许可证要求的更多信息,请参阅 NVIDIA 网站上的 NVIDIA License Server 发行注记。