第 2 章 新功能及功能增强


  • 本发行版本中包含了 vLLM 和 LLM Compressor 的新版本:

    • vLLM v0.9.0.1

      • 900+ upstream commits since vLLM v0.8.4.新功能包括:FP8 fused Mixture of oness (MoE)内核, 14 个新模型支持, /server_info 端点, 动态 LoRA hot reload.
    • LLM Compressor v0.5.1
  • Red Hat AI Inference Server 容器基础现在基于 PyTorch 2.7 和 Triton 3.2 构建。
  • Red Hat AI Inference Server 现在在 FIPS 兼容 Red Hat Enterprise Linux (RHEL)主机上被完全支持。
  • Red Hat AI Inference Server 支持的产品和硬件配置已被扩展。如需更多信息,请参阅支持的产品和硬件配置
Expand
表 2.1. AI 加速器性能亮点
功能优点支持的 GPU

Blackwell 支持

使用 FP8 内核和完整 CUDA Graph 加速在 NVIDIA B200 计算功能 10.0 GPU 上运行

NVIDIA Blackwell

ROCm 上的 FP8 KV-cache

对于没有准确性的大型上下文窗口,大约两次。

所有 AMD GPU

SKINNY GEMMs

大约低于 10% 的延迟

AMD MI300X

完整的 CUDA Graph 模式

6-8% 提高了小模型的平均输出令牌(TPOT)

NVIDIA A100 和 H100

自动 FP16 回退

stable 在没有手动标记的情况下在预 Ampere 卡上运行,例如 NVIDIA T4 GPU

旧的 NVIDIA GPU

2.1. 启用新模型

Red Hat AI Inference Server 3.1 通过启用以下模型来扩展功能:

  • 在 vLLM 版本 0.8.5 中添加:

    • Qwen3 和 Qwen3MoE
    • ModernBERT
    • Granite Speech
    • PLaMo2
    • Kimi-VL
    • Snowflake Arctic Embed
  • 在 vLLM 版本 0.9.0 中添加:

    • MiMo-7B
    • MiniMax-VL-01
    • Ovis 1.6,Ovis 2
    • Granite 4
    • FalconH1
    • LlamaGuard4
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat