5.7. GPU 驱动程序或设备直通问题
当您运行 Red Hat AI Inference Server 容器镜像时,有时不明确设备传递错误是由 GPU 驱动程序或工具(如 NVIDIA Container Toolkit )导致的。
检查主机机器上安装的 NVIDIA Container 工具包是否可以看到主机 GPU:
nvidia-ctk cdi list
$ nvidia-ctk cdi list
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 输出示例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 确保在主机上创建了 NVIDIA 加速器配置:
sudo nvidia-ctk cdi generate --output=/etc/cdi/nvidia.yaml
$ sudo nvidia-ctk cdi generate --output=/etc/cdi/nvidia.yaml
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 运行以下命令,检查 Red Hat AI Inference Server 容器是否可以访问主机上的 NVIDIA GPU:
podman run --rm -it --security-opt=label=disable --device nvidia.com/gpu=all nvcr.io/nvidia/cuda:12.4.1-base-ubi9 nvidia-smi
$ podman run --rm -it --security-opt=label=disable --device nvidia.com/gpu=all nvcr.io/nvidia/cuda:12.4.1-base-ubi9 nvidia-smi
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 输出示例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow