第 2 章 新功能及功能增强
本发行版本中包含了 vLLM 和 LLM Compressor 的新版本:
-
900+ upstream commits since vLLM v0.8.4.新功能包括:FP8 fused Mixture of oness (MoE)内核, 14 个新模型支持,
/server_info端点, 动态 LoRA hot reload.
-
900+ upstream commits since vLLM v0.8.4.新功能包括:FP8 fused Mixture of oness (MoE)内核, 14 个新模型支持,
- LLM Compressor v0.5.1
- Red Hat AI Inference Server 容器基础现在基于 PyTorch 2.7 和 Triton 3.2 构建。
- Red Hat AI Inference Server 现在在 FIPS 兼容 Red Hat Enterprise Linux (RHEL)主机上被完全支持。
- Red Hat AI Inference Server 支持的产品和硬件配置已被扩展。如需更多信息,请参阅支持的产品和硬件配置。
| 功能 | 优点 | 支持的 GPU |
|---|---|---|
| Blackwell 支持 | 使用 FP8 内核和完整 CUDA Graph 加速在 NVIDIA B200 计算功能 10.0 GPU 上运行 | NVIDIA Blackwell |
| ROCm 上的 FP8 KV-cache | 对于没有准确性的大型上下文窗口,大约两次。 | 所有 AMD GPU |
| SKINNY GEMMs | 大约低于 10% 的延迟 | AMD MI300X |
| 完整的 CUDA Graph 模式 | 6-8% 提高了小模型的平均输出令牌(TPOT) | NVIDIA A100 和 H100 |
| 自动 FP16 回退 | stable 在没有手动标记的情况下在预 Ampere 卡上运行,例如 NVIDIA T4 GPU | 旧的 NVIDIA GPU |
2.1. 启用新模型 复制链接链接已复制到粘贴板!
Red Hat AI Inference Server 3.1 通过启用以下模型来扩展功能:
在 vLLM 版本 0.8.5 中添加:
- Qwen3 和 Qwen3MoE
- ModernBERT
- Granite Speech
- PLaMo2
- Kimi-VL
- Snowflake Arctic Embed
在 vLLM 版本 0.9.0 中添加:
- MiMo-7B
- MiniMax-VL-01
- Ovis 1.6,Ovis 2
- Granite 4
- FalconH1
- LlamaGuard4