发行注记
Red Hat AI Inference Server 发行版的主要新功能及变化信息
摘要
前言 复制链接链接已复制到粘贴板!
Red Hat AI Inference Server 为开发人员和 IT 组织提供一个可扩展的推销平台,用于在具有最少的配置和资源使用量的情况下在安全、可扩展的资源上部署和自定义 AI 模型。
第 1 章 版本 3.2.1 发行注记 复制链接链接已复制到粘贴板!
Red Hat AI Inference Server 3.2.1 发行版本为 NVIDIA CUDA、AMD ROCm 和 Google TPU AI Accelerators 提供了优化使用大型语言模型(LLM)的容器镜像。容器镜像可从 registry.redhat.io 提供:
-
registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.1 -
registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.2.1 -
registry.redhat.io/rhaiis/vllm-tpu-rhel9:3.2.1
Red Hat AI Inference Server 3.2.1 软件包上游 vLLM v0.10.0 发行版本。
您可以查看上游 vLLM v0.10.0 发行注记中的更新的完整列表。
Red Hat AI Inference Server 3.2.1 版本不打包 LLM Compressor。拉取之前的 3.2.0 容器镜像,以使用 LLM Compressor 和 AI Inference Server。
Red Hat AI Inference Server 支持的产品和硬件配置已被扩展。如需更多信息,请参阅支持的产品和硬件配置。
1.1. 启用新模型 复制链接链接已复制到粘贴板!
Red Hat AI Inference Server 3.2.1 通过启用以下新验证模型以用于 vLLM v0.10.0 中的 Red Hat AI Inference Server 3.2.1 来扩展功能:
- 支持 EAGLE 的 Llama 4
- EXAONE 4.0
- Microsoft Phi-4-mini-flash-reasoning
- Hunyuan V1 Dense + A13B,包括原因和工具的能力
- Ling mix-of-experts (MoE)模型
- JinaVL Reranker
- Nemotron‑Nano‑VL‑8B‑V1
- arcee
- Voxtral
1.2. 新开发人员功能 复制链接链接已复制到粘贴板!
- inference 引擎更新
- V0 引擎清理 - 删除旧的 CPU/XPU/TPU V0 后端。
-
可以使用
-async-scheduling标志来启用实验性异步调度,将引擎核心调度与 GPU 运行程序重叠,以提高推测吞吐量。 -
通过在捕获前调用
gc.freeze来减少 CUDA 图形的启动时间。
- 性能改进
- 48% 将微批量令牌用于并发请求来减少 48%
- 添加了 fused MLA QKV 和 strided layernorm。
- 为 Mamba 模型添加了 Triton causal-conv1d。
- 新的量化选项
- 对于 Mixture of practicess 模型的 Mixture 量化。
- BNB (Bits 和 Bytes)支持 Mixtral 模型。
- 特定于硬件的量化改进。
- 扩展模型支持
- 带有 EAGLE 规范的解码支持的 Llama 4。
- EXAONE 4.0 和 Microsoft Phi-4-mini 模型系列.
- Hunyuan V1 Dense 和 Ling MoE 架构.
- OpenAI 兼容性
- 添加了新的 OpenAI Responses API 实现。
-
添加了使用所需选择和
$defs调用的工具。
- 依赖项更新
- Red Hat AI Inference Server Google TPU 容器镜像在夜间使用 PyTorch 2.9.0。
- NVIDIA CUDA 使用 PyTorch 2.7.1。
- 在 PyTorch 2.7.0 上保持 AMD ROCm。
- FlashInfer 库更新至 v0.2.8rc1。
1.3. 已知问题 复制链接链接已复制到粘贴板!
在带有 CoreOS 9.6、ROCm 驱动程序 6.4.2 和多个 ROCm AI Accelerators 的 OpenShift Container Platform 4.19 中的 Red Hat AI Inference Server 模型部署中,模型部署会失败。CoreOS 9.4 对与匹配的 ROCm 驱动程序 6.4.2 版本不会出现这个问题。
要解决这个问题,请确保部署兼容的 OpenShift Container Platform 和 ROCm 驱动程序版本:
Expand 表 1.1. 支持的 OpenShift Container Platform 和 ROCm 驱动程序版本 OpenShift Container Platform 版本 ROCm 驱动程序版本 4.17
6.4.2
4.17
6.3.4
第 2 章 版本 3.2.0 发行注记 复制链接链接已复制到粘贴板!
Red Hat AI Inference Server 3.2.0 版本为 NVIDIA CUDA 和 AMD ROCm AI Accelerators 提供了优化使用大型语言模型(LLM)的容器镜像。容器镜像可从 registry.redhat.io 提供:
-
registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.0 -
registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.2.0
利用红帽 AI Inference Server,您可以以更高的性能、更低的成本以及企业级稳定性和安全性提供高性能和推测模型。Red Hat AI Inference Server 基于上游开源 vLLM 软件项目构建。
本发行版本中包含了 vLLM 和 LLM Compressor 的新版本:
- 400+ upstream commits since vLLM v0.9.0.1
- LLM Compressor v0.6.0
Red Hat AI Inference Server 支持的产品和硬件配置已被扩展。如需更多信息,请参阅支持的产品和硬件配置。
| 功能 | 优点 | 支持的 GPU |
|---|---|---|
| Blackwell 计算功能 12.0 | 在支持 W8A8/FP8 内核和相关调优的 NVIDIA RTX PRO 6000 Blackwell Server Edition 上运行 | NVIDIA RTX PRO 6000 Blackwell Server Edition |
| ROCm 的改进 | TritonAttention、快速 All-Reduce 和 chunked 预先填充的全图形捕获 | AMD ROCm |
2.1. 启用新模型 复制链接链接已复制到粘贴板!
Red Hat AI Inference Server 3.2.0 通过在 vLLM v0.9.1 中启用以下模型来扩展功能:
- LoRA 支持 InternVL
- Magistral
- Minicpm eagle 支持
- NemotronH
vLLM v0.9.0 中添加了以下模型:
- dots1
- Ernie 4.5
- FalconH1
- Gemma‑3
- GLM‑4.1 V
- GPT-2 for Sequence Classification
- Granite 4
- Keye‑VL‑8B‑Preview
- LlamaGuard4
- MiMo-7B
- MiniMax-M1
- MiniMax-VL-01
- Ovis 1.6,Ovis 2
- Phi‑tiny‑MoE‑instruct
- Qwen 3 Embedding & Reranker
- Slim-MoE
- Tarsier 2
- Tencent HunYuan‑MoE‑V1
2.2. 新开发人员功能 复制链接链接已复制到粘贴板!
- 改进了调度程序性能
-
vLLM 调度程序 API
CachedRequestData类已更新,从而提高了对象和缓存的 sampler-ID 存储的性能。 - CUDA 图形执行
- CUDA 图形执行现在可用于所有 FlashAttention-3 (FA3)和 FlashMLA 路径,包括前缀缓存。
- 新的 live CUDA 图形捕获进度条可以更轻松地调试。
- 调度
- 优先级调度现在在 vLLM V1 引擎中实施。