发行注记


Red Hat AI Inference Server 3.2

Red Hat AI Inference Server 发行版的主要新功能及变化信息

Red Hat AI Documentation Team

摘要

此发行注记介绍了 Red Hat AI Inference Server 的新功能、功能增强、重要的技术变化、以及对以前版本中的错误作出的主要修正。

前言

Red Hat AI Inference Server 为开发人员和 IT 组织提供一个可扩展的推销平台,用于在具有最少的配置和资源使用量的情况下在安全、可扩展的资源上部署和自定义 AI 模型。

第 1 章 版本 3.2.1 发行注记

Red Hat AI Inference Server 3.2.1 发行版本为 NVIDIA CUDA、AMD ROCm 和 Google TPU AI Accelerators 提供了优化使用大型语言模型(LLM)的容器镜像。容器镜像可从 registry.redhat.io 提供:

  • registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.1
  • registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.2.1
  • registry.redhat.io/rhaiis/vllm-tpu-rhel9:3.2.1

Red Hat AI Inference Server 3.2.1 软件包上游 vLLM v0.10.0 发行版本。

您可以查看上游 vLLM v0.10.0 发行注记中的更新的完整列表。

注意

Red Hat AI Inference Server 3.2.1 版本不打包 LLM Compressor。拉取之前的 3.2.0 容器镜像,以使用 LLM Compressor 和 AI Inference Server。

Red Hat AI Inference Server 支持的产品和硬件配置已被扩展。如需更多信息,请参阅支持的产品和硬件配置

1.1. 启用新模型

Red Hat AI Inference Server 3.2.1 通过启用以下新验证模型以用于 vLLM v0.10.0 中的 Red Hat AI Inference Server 3.2.1 来扩展功能:

  • 支持 EAGLE 的 Llama 4
  • EXAONE 4.0
  • Microsoft Phi-4-mini-flash-reasoning
  • Hunyuan V1 Dense + A13B,包括原因和工具的能力
  • Ling mix-of-experts (MoE)模型
  • JinaVL Reranker
  • Nemotron‑Nano‑VL‑8B‑V1
  • arcee
  • Voxtral

1.2. 新开发人员功能

inference 引擎更新
  • V0 引擎清理 - 删除旧的 CPU/XPU/TPU V0 后端。
  • 可以使用 -async-scheduling 标志来启用实验性异步调度,将引擎核心调度与 GPU 运行程序重叠,以提高推测吞吐量。
  • 通过在捕获前调用 gc.freeze 来减少 CUDA 图形的启动时间。
性能改进
  • 48% 将微批量令牌用于并发请求来减少 48%
  • 添加了 fused MLA QKV 和 strided layernorm。
  • 为 Mamba 模型添加了 Triton causal-conv1d。
新的量化选项
  • 对于 Mixture of practicess 模型的 Mixture 量化。
  • BNB (Bits 和 Bytes)支持 Mixtral 模型。
  • 特定于硬件的量化改进。
扩展模型支持
  • 带有 EAGLE 规范的解码支持的 Llama 4。
  • EXAONE 4.0 和 Microsoft Phi-4-mini 模型系列.
  • Hunyuan V1 Dense 和 Ling MoE 架构.
OpenAI 兼容性
  • 添加了新的 OpenAI Responses API 实现。
  • 添加了使用所需选择和 $defs 调用的工具。
依赖项更新
  • Red Hat AI Inference Server Google TPU 容器镜像在夜间使用 PyTorch 2.9.0。
  • NVIDIA CUDA 使用 PyTorch 2.7.1。
  • 在 PyTorch 2.7.0 上保持 AMD ROCm。
  • FlashInfer 库更新至 v0.2.8rc1。

1.3. 已知问题

  • 在带有 CoreOS 9.6、ROCm 驱动程序 6.4.2 和多个 ROCm AI Accelerators 的 OpenShift Container Platform 4.19 中的 Red Hat AI Inference Server 模型部署中,模型部署会失败。CoreOS 9.4 对与匹配的 ROCm 驱动程序 6.4.2 版本不会出现这个问题。

    要解决这个问题,请确保部署兼容的 OpenShift Container Platform 和 ROCm 驱动程序版本:

    Expand
    表 1.1. 支持的 OpenShift Container Platform 和 ROCm 驱动程序版本
    OpenShift Container Platform 版本ROCm 驱动程序版本

    4.17

    6.4.2

    4.17

    6.3.4

第 2 章 版本 3.2.0 发行注记

Red Hat AI Inference Server 3.2.0 版本为 NVIDIA CUDA 和 AMD ROCm AI Accelerators 提供了优化使用大型语言模型(LLM)的容器镜像。容器镜像可从 registry.redhat.io 提供:

  • registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.0
  • registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.2.0

利用红帽 AI Inference Server,您可以以更高的性能、更低的成本以及企业级稳定性和安全性提供高性能和推测模型。Red Hat AI Inference Server 基于上游开源 vLLM 软件项目构建。

本发行版本中包含了 vLLM 和 LLM Compressor 的新版本:

Red Hat AI Inference Server 支持的产品和硬件配置已被扩展。如需更多信息,请参阅支持的产品和硬件配置

Expand
表 2.1. AI 加速器性能亮点
功能优点支持的 GPU

Blackwell 计算功能 12.0

在支持 W8A8/FP8 内核和相关调优的 NVIDIA RTX PRO 6000 Blackwell Server Edition 上运行

NVIDIA RTX PRO 6000 Blackwell Server Edition

ROCm 的改进

TritonAttention、快速 All-Reduce 和 chunked 预先填充的全图形捕获

AMD ROCm

2.1. 启用新模型

Red Hat AI Inference Server 3.2.0 通过在 vLLM v0.9.1 中启用以下模型来扩展功能:

  • LoRA 支持 InternVL
  • Magistral
  • Minicpm eagle 支持
  • NemotronH

vLLM v0.9.0 中添加了以下模型:

  • dots1
  • Ernie 4.5
  • FalconH1
  • Gemma‑3
  • GLM‑4.1 V
  • GPT-2 for Sequence Classification
  • Granite 4
  • Keye‑VL‑8B‑Preview
  • LlamaGuard4
  • MiMo-7B
  • MiniMax-M1
  • MiniMax-VL-01
  • Ovis 1.6,Ovis 2
  • Phi‑tiny‑MoE‑instruct
  • Qwen 3 Embedding & Reranker
  • Slim-MoE
  • Tarsier 2
  • Tencent HunYuan‑MoE‑V1

2.2. 新开发人员功能

改进了调度程序性能
vLLM 调度程序 API CachedRequestData 类已更新,从而提高了对象和缓存的 sampler-ID 存储的性能。
CUDA 图形执行
  • CUDA 图形执行现在可用于所有 FlashAttention-3 (FA3)和 FlashMLA 路径,包括前缀缓存。
  • 新的 live CUDA 图形捕获进度条可以更轻松地调试。
调度
优先级调度现在在 vLLM V1 引擎中实施。

法律通告

Copyright © 2025 Red Hat, Inc.
The text of and illustrations in this document are licensed by Red Hat under a Creative Commons Attribution–Share Alike 3.0 Unported license ("CC-BY-SA"). An explanation of CC-BY-SA is available at http://creativecommons.org/licenses/by-sa/3.0/. In accordance with CC-BY-SA, if you distribute this document or an adaptation of it, you must provide the URL for the original version.
Red Hat, as the licensor of this document, waives the right to enforce, and agrees not to assert, Section 4d of CC-BY-SA to the fullest extent permitted by applicable law.
Red Hat, Red Hat Enterprise Linux, the Shadowman logo, the Red Hat logo, JBoss, OpenShift, Fedora, the Infinity logo, and RHCE are trademarks of Red Hat, Inc., registered in the United States and other countries.
Linux® is the registered trademark of Linus Torvalds in the United States and other countries.
Java® is a registered trademark of Oracle and/or its affiliates.
XFS® is a trademark of Silicon Graphics International Corp. or its subsidiaries in the United States and/or other countries.
MySQL® is a registered trademark of MySQL AB in the United States, the European Union and other countries.
Node.js® is an official trademark of Joyent. Red Hat is not formally related to or endorsed by the official Joyent Node.js open source or commercial project.
The OpenStack® Word Mark and OpenStack logo are either registered trademarks/service marks or trademarks/service marks of the OpenStack Foundation, in the United States and other countries and are used with the OpenStack Foundation's permission. We are not affiliated with, endorsed or sponsored by the OpenStack Foundation, or the OpenStack community.
All other trademarks are the property of their respective owners.
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2026 Red Hat
返回顶部