5.4. CUDA 加速器错误


  • 使用 CUDA 加速器运行模型时,您可能会遇到 self.graph.replay () 错误。

    如果 vLLM 崩溃,且错误追踪捕获 vllm/worker/model_runner .py 模块中的 self.graph.replay () 方法的某种错误,则很可能是 CUDAGraph 类中出现的 CUDA 错误。

    要识别导致错误的特定 CUDA 操作,请将 --enforce-eager 服务器参数添加到 vllm 命令行,以禁用 CUDAGraph 优化并隔离有问题的 CUDA 操作。

  • 您可能会遇到由不正确的硬件或驱动程序设置导致的加速器和 CPU 通信问题。

    对于某些类型的 NVIDIA GPU,多 GPU 系统需要 NVIDIA Fabric Manager。nvidia-fabricmanager 软件包和相关 systemd 服务可能无法安装,或者软件包可能没有在运行。

    运行 诊断 Python 脚本,以检查 NVIDIA Collective Communications Library (NCCL)和 Gloo 库组件是否正确通信。

    在 NVIDIA 系统中,运行以下命令来检查光纤管理器状态:

    $ systemctl status nvidia-fabricmanager
    Copy to Clipboard Toggle word wrap

    在成功配置的系统上,服务应处于活动状态并在运行且无错误。

  • 在 NVIDIA Multi -Instance GPU (MIG)硬件上运行带有十个并行性且将--tensor-parallel-size 设置为大于 1 的 vLLM 会导致在初始模型加载或形成检查阶段造成 AssertionError。这通常在启动 vLLM 时作为第一个错误之一。
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat