5.4. CUDA 加速器错误
使用 CUDA 加速器运行模型时,您可能会遇到
self.graph.replay ()
错误。如果 vLLM 崩溃,且错误追踪捕获
vllm/worker/model_runner
() 方法的某种错误,则很可能是.py
模块中的 self.graph.replayCUDAGraph
类中出现的 CUDA 错误。要识别导致错误的特定 CUDA 操作,请将
--enforce-eager
服务器参数添加到vllm
命令行,以禁用CUDAGraph
优化并隔离有问题的 CUDA 操作。您可能会遇到由不正确的硬件或驱动程序设置导致的加速器和 CPU 通信问题。
对于某些类型的 NVIDIA GPU,多 GPU 系统需要 NVIDIA Fabric Manager。
nvidia-fabricmanager
软件包和相关 systemd 服务可能无法安装,或者软件包可能没有在运行。运行 诊断 Python 脚本,以检查 NVIDIA Collective Communications Library (NCCL)和 Gloo 库组件是否正确通信。
在 NVIDIA 系统中,运行以下命令来检查光纤管理器状态:
systemctl status nvidia-fabricmanager
$ systemctl status nvidia-fabricmanager
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 在成功配置的系统上,服务应处于活动状态并在运行且无错误。
-
在 NVIDIA Multi
-Instance GPU (MIG)硬件上运行带有十个并行性且将--tensor-parallel-size
设置为大于 1 的 vLLM 会导致在初始模型加载或形成检查阶段造成AssertionError
。这通常在启动 vLLM 时作为第一个错误之一。