发行注记
Red Hat AI Inference Server 发行版的主要新功能及变化信息
摘要
前言 复制链接链接已复制到粘贴板!
Red Hat AI Inference Server 为开发人员和 IT 组织提供一个可扩展的推销平台,用于在具有最少的配置和资源使用量的情况下在安全、可扩展的资源上部署和自定义 AI 模型。
第 1 章 关于此版本 复制链接链接已复制到粘贴板!
Red Hat AI Inference Server 现已发布。此 Red Hat AI Inference Server 3.1 发行版本为 NVIDIA 和 ROCm 加速器提供优化了大型语言模型(LLM)的容器镜像。容器镜像可从 registry.redhat.io 提供:
-
registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.1.0 -
registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.1.0
利用红帽 AI Inference Server,您可以以更高的性能、更低的成本以及企业级稳定性和安全性提供高性能和推测模型。Red Hat AI Inference Server 基于上游开源 vLLM 软件项目构建。
第 2 章 新功能及功能增强 复制链接链接已复制到粘贴板!
本发行版本中包含了 vLLM 和 LLM Compressor 的新版本:
-
900+ upstream commits since vLLM v0.8.4.新功能包括:FP8 fused Mixture of oness (MoE)内核, 14 个新模型支持,
/server_info端点, 动态 LoRA hot reload.
-
900+ upstream commits since vLLM v0.8.4.新功能包括:FP8 fused Mixture of oness (MoE)内核, 14 个新模型支持,
- LLM Compressor v0.5.1
- Red Hat AI Inference Server 容器基础现在基于 PyTorch 2.7 和 Triton 3.2 构建。
- Red Hat AI Inference Server 现在在 FIPS 兼容 Red Hat Enterprise Linux (RHEL)主机上被完全支持。
- Red Hat AI Inference Server 支持的产品和硬件配置已被扩展。如需更多信息,请参阅支持的产品和硬件配置。
| 功能 | 优点 | 支持的 GPU |
|---|---|---|
| Blackwell 支持 | 使用 FP8 内核和完整 CUDA Graph 加速在 NVIDIA B200 计算功能 10.0 GPU 上运行 | NVIDIA Blackwell |
| ROCm 上的 FP8 KV-cache | 对于没有准确性的大型上下文窗口,大约两次。 | 所有 AMD GPU |
| SKINNY GEMMs | 大约低于 10% 的延迟 | AMD MI300X |
| 完整的 CUDA Graph 模式 | 6-8% 提高了小模型的平均输出令牌(TPOT) | NVIDIA A100 和 H100 |
| 自动 FP16 回退 | stable 在没有手动标记的情况下在预 Ampere 卡上运行,例如 NVIDIA T4 GPU | 旧的 NVIDIA GPU |
2.1. 启用新模型 复制链接链接已复制到粘贴板!
Red Hat AI Inference Server 3.1 通过启用以下模型来扩展功能:
在 vLLM 版本 0.8.5 中添加:
- Qwen3 和 Qwen3MoE
- ModernBERT
- Granite Speech
- PLaMo2
- Kimi-VL
- Snowflake Arctic Embed
在 vLLM 版本 0.9.0 中添加:
- MiMo-7B
- MiniMax-VL-01
- Ovis 1.6,Ovis 2
- Granite 4
- FalconH1
- LlamaGuard4
2.2. 新开发人员功能 复制链接链接已复制到粘贴板!
- /server_info REST endpoint
- 查询模型、KV 缓存以及可观察性和自动化的设备设置。
- 动态 LoRA 热重新加载
- 从 URL 中交换调优的适配器,零停机时间。
- vllm-bench CLI
- 用于即时延迟和吞吐量大小的"ship-in-container"工具。
- 更快地增量分离
- 在 CUDA 和 ROCm GPU 上,流响应启动两次。
- torch.compile 缓存
- 缓存的第一个提示会在主机重启后编译短暂的温时间。
2.3. 新的操作特性 复制链接链接已复制到粘贴板!
- 降低总拥有成本(TCO)
- FP8/INT8 内核和 skinny GEMMs 允许同一 GPU 每秒提供更多令牌。
- AMD GPU 上的更大模型
- ROCm 现在匹配 FP8 和 fused MoE 模型性能的 CUDA,使 AMD MI300X 成为第一类部署目标。
- 操作灵活性
-
LoRA hot swap 和
/server_info端点允许持续集成和部署,以便在不重启 pod 的情况下对微调建模。
第 3 章 已知问题 复制链接链接已复制到粘贴板!
-
当您使用启用了--
enable-chunked-prefill的 Red Hat AI Inference Server 3.1 容器镜像在 NVIDIA T4 加速器上部署模型时,任何 chat 或 text completion 查询都会导致模型崩溃并重启。要解决这个问题,请在部署模型时删除-enable-chunked-prefill标志。