主页
产品
Red Hat AI Inference Server
3.1
发行注记
第 2 章新功能及功能增强

第 2 章新功能及功能增强

本发行版本中包含了 vLLM 和 LLM Compressor 的新版本：
- vLLM v0.9.0.1
  - 900+ upstream commits since vLLM v0.8.4.新功能包括：FP8 fused Mixture of oness (MoE)内核, 14 个新模型支持, /server_info 端点, 动态 LoRA hot reload.
- LLM Compressor v0.5.1
Red Hat AI Inference Server 容器基础现在基于 PyTorch 2.7 和 Triton 3.2 构建。
Red Hat AI Inference Server 现在在 FIPS 兼容 Red Hat Enterprise Linux (RHEL)主机上被完全支持。
Red Hat AI Inference Server 支持的产品和硬件配置已被扩展。如需更多信息，请参阅支持的产品和硬件配置。

Expand

表 2.1. AI 加速器性能亮点
功能	优点	支持的 GPU
Blackwell 支持	使用 FP8 内核和完整 CUDA Graph 加速在 NVIDIA B200 计算功能 10.0 GPU 上运行	NVIDIA Blackwell
ROCm 上的 FP8 KV-cache	对于没有准确性的大型上下文窗口，大约两次。	所有 AMD GPU
SKINNY GEMMs	大约低于 10% 的延迟	AMD MI300X
完整的 CUDA Graph 模式	6-8% 提高了小模型的平均输出令牌(TPOT)	NVIDIA A100 和 H100
自动 FP16 回退	stable 在没有手动标记的情况下在预 Ampere 卡上运行，例如 NVIDIA T4 GPU	旧的 NVIDIA GPU

2.1. 启用新模型
复制链接

Red Hat AI Inference Server 3.1 通过启用以下模型来扩展功能：

在 vLLM 版本 0.8.5 中添加：
- Qwen3 和 Qwen3MoE
- ModernBERT
- Granite Speech
- PLaMo2
- Kimi-VL
- Snowflake Arctic Embed
在 vLLM 版本 0.9.0 中添加：
- MiMo-7B
- MiniMax-VL-01
- Ovis 1.6，Ovis 2
- Granite 4
- FalconH1
- LlamaGuard4

返回顶部

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务，以及可以信赖的内容，帮助红帽用户创新并实现他们的目标。了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情，请参阅红帽博客.

關於紅帽

我们提供强化的解决方案，使企业能够更轻松地跨平台和环境（从核心数据中心到网络边缘）工作。

Theme

© 2025 Red Hat