发行注记


Red Hat AI Inference Server 3.1

Red Hat AI Inference Server 发行版的主要新功能及变化信息

Red Hat AI Documentation Team

摘要

此发行注记介绍了 Red Hat AI Inference Server 的新功能、功能增强、重要的技术变化、以及对以前版本中的错误作出的主要修正。

前言

Red Hat AI Inference Server 为开发人员和 IT 组织提供一个可扩展的推销平台,用于在具有最少的配置和资源使用量的情况下在安全、可扩展的资源上部署和自定义 AI 模型。

第 1 章 关于此版本

Red Hat AI Inference Server 现已发布。此 Red Hat AI Inference Server 3.1 发行版本为 NVIDIA 和 ROCm 加速器提供优化了大型语言模型(LLM)的容器镜像。容器镜像可从 registry.redhat.io 提供:

  • registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.1.0
  • registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.1.0

利用红帽 AI Inference Server,您可以以更高的性能、更低的成本以及企业级稳定性和安全性提供高性能和推测模型。Red Hat AI Inference Server 基于上游开源 vLLM 软件项目构建。

第 2 章 新功能及功能增强

  • 本发行版本中包含了 vLLM 和 LLM Compressor 的新版本:

    • vLLM v0.9.0.1

      • 900+ upstream commits since vLLM v0.8.4.新功能包括:FP8 fused Mixture of oness (MoE)内核, 14 个新模型支持, /server_info 端点, 动态 LoRA hot reload.
    • LLM Compressor v0.5.1
  • Red Hat AI Inference Server 容器基础现在基于 PyTorch 2.7 和 Triton 3.2 构建。
  • Red Hat AI Inference Server 现在在 FIPS 兼容 Red Hat Enterprise Linux (RHEL)主机上被完全支持。
  • Red Hat AI Inference Server 支持的产品和硬件配置已被扩展。如需更多信息,请参阅支持的产品和硬件配置
Expand
表 2.1. AI 加速器性能亮点
功能优点支持的 GPU

Blackwell 支持

使用 FP8 内核和完整 CUDA Graph 加速在 NVIDIA B200 计算功能 10.0 GPU 上运行

NVIDIA Blackwell

ROCm 上的 FP8 KV-cache

对于没有准确性的大型上下文窗口,大约两次。

所有 AMD GPU

SKINNY GEMMs

大约低于 10% 的延迟

AMD MI300X

完整的 CUDA Graph 模式

6-8% 提高了小模型的平均输出令牌(TPOT)

NVIDIA A100 和 H100

自动 FP16 回退

stable 在没有手动标记的情况下在预 Ampere 卡上运行,例如 NVIDIA T4 GPU

旧的 NVIDIA GPU

2.1. 启用新模型

Red Hat AI Inference Server 3.1 通过启用以下模型来扩展功能:

  • 在 vLLM 版本 0.8.5 中添加:

    • Qwen3 和 Qwen3MoE
    • ModernBERT
    • Granite Speech
    • PLaMo2
    • Kimi-VL
    • Snowflake Arctic Embed
  • 在 vLLM 版本 0.9.0 中添加:

    • MiMo-7B
    • MiniMax-VL-01
    • Ovis 1.6,Ovis 2
    • Granite 4
    • FalconH1
    • LlamaGuard4

2.2. 新开发人员功能

/server_info REST endpoint
查询模型、KV 缓存以及可观察性和自动化的设备设置。
动态 LoRA 热重新加载
从 URL 中交换调优的适配器,零停机时间。
vllm-bench CLI
用于即时延迟和吞吐量大小的"ship-in-container"工具。
更快地增量分离
在 CUDA 和 ROCm GPU 上,流响应启动两次。
torch.compile 缓存
缓存的第一个提示会在主机重启后编译短暂的温时间。

2.3. 新的操作特性

降低总拥有成本(TCO)
FP8/INT8 内核和 skinny GEMMs 允许同一 GPU 每秒提供更多令牌。
AMD GPU 上的更大模型
ROCm 现在匹配 FP8 和 fused MoE 模型性能的 CUDA,使 AMD MI300X 成为第一类部署目标。
操作灵活性
LoRA hot swap 和 /server_info 端点允许持续集成和部署,以便在不重启 pod 的情况下对微调建模。

第 3 章 已知问题

  • 当您使用启用了-- enable-chunked-prefill 的 Red Hat AI Inference Server 3.1 容器镜像在 NVIDIA T4 加速器上部署模型时,任何 chat 或 text completion 查询都会导致模型崩溃并重启。要解决这个问题,请在部署模型 时删除-enable-chunked-prefill 标志。

法律通告

Copyright © 2025 Red Hat, Inc.
The text of and illustrations in this document are licensed by Red Hat under a Creative Commons Attribution–Share Alike 3.0 Unported license ("CC-BY-SA"). An explanation of CC-BY-SA is available at http://creativecommons.org/licenses/by-sa/3.0/. In accordance with CC-BY-SA, if you distribute this document or an adaptation of it, you must provide the URL for the original version.
Red Hat, as the licensor of this document, waives the right to enforce, and agrees not to assert, Section 4d of CC-BY-SA to the fullest extent permitted by applicable law.
Red Hat, Red Hat Enterprise Linux, the Shadowman logo, the Red Hat logo, JBoss, OpenShift, Fedora, the Infinity logo, and RHCE are trademarks of Red Hat, Inc., registered in the United States and other countries.
Linux® is the registered trademark of Linus Torvalds in the United States and other countries.
Java® is a registered trademark of Oracle and/or its affiliates.
XFS® is a trademark of Silicon Graphics International Corp. or its subsidiaries in the United States and/or other countries.
MySQL® is a registered trademark of MySQL AB in the United States, the European Union and other countries.
Node.js® is an official trademark of Joyent. Red Hat is not formally related to or endorsed by the official Joyent Node.js open source or commercial project.
The OpenStack® Word Mark and OpenStack logo are either registered trademarks/service marks or trademarks/service marks of the OpenStack Foundation, in the United States and other countries and are used with the OpenStack Foundation's permission. We are not affiliated with, endorsed or sponsored by the OpenStack Foundation, or the OpenStack community.
All other trademarks are the property of their respective owners.
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

关于红帽文档

Legal Notice

Theme

© 2026 Red Hat
返回顶部