5.4. CUDA 加速器错误

使用 CUDA 加速器运行模型时，您可能会遇到 self.graph.replay （） 错误。
如果 vLLM 崩溃，且错误追踪捕获 vllm/worker/model_runner .py 模块中的 self.graph.replay （）方法的某种错误，则很可能是 CUDAGraph 类中出现的 CUDA 错误。
要识别导致错误的特定 CUDA 操作，请将 --enforce-eager 服务器参数添加到 vllm 命令行，以禁用 CUDAGraph 优化并隔离有问题的 CUDA 操作。
您可能会遇到由不正确的硬件或驱动程序设置导致的加速器和 CPU 通信问题。
对于某些类型的 NVIDIA GPU，多 GPU 系统需要 NVIDIA Fabric Manager。nvidia-fabricmanager 软件包和相关 systemd 服务可能无法安装，或者软件包可能没有在运行。
运行诊断 Python 脚本，以检查 NVIDIA Collective Communications Library (NCCL)和 Gloo 库组件是否正确通信。
在 NVIDIA 系统中，运行以下命令来检查光纤管理器状态：
```
$ systemctl status nvidia-fabricmanager
```
在成功配置的系统上，服务应处于活动状态并在运行且无错误。
在 NVIDIA Multi -Instance GPU (MIG)硬件上运行带有十个并行性且将--tensor-parallel-size 设置为大于 1 的 vLLM 会导致在初始模型加载或形成检查阶段造成 AssertionError。这通常在启动 vLLM 时作为第一个错误之一。