第 2 章 版本 3.2.0 发行注记
Red Hat AI Inference Server 3.2.0 版本为 NVIDIA CUDA 和 AMD ROCm AI Accelerators 提供了优化使用大型语言模型(LLM)的容器镜像。容器镜像可从 registry.redhat.io 提供:
-
registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.0
-
registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.2.0
利用红帽 AI Inference Server,您可以以更高的性能、更低的成本以及企业级稳定性和安全性提供高性能和推测模型。Red Hat AI Inference Server 基于上游开源 vLLM 软件项目构建。
本发行版本中包含了 vLLM 和 LLM Compressor 的新版本:
- 400+ upstream commits since vLLM v0.9.0.1
- LLM Compressor v0.6.0
Red Hat AI Inference Server 支持的产品和硬件配置已被扩展。如需更多信息,请参阅支持的产品和硬件配置。
功能 | 优点 | 支持的 GPU |
---|---|---|
Blackwell 计算功能 12.0 | 在支持 W8A8/FP8 内核和相关调优的 NVIDIA RTX PRO 6000 Blackwell Server Edition 上运行 | NVIDIA RTX PRO 6000 Blackwell Server Edition |
ROCm 的改进 | TritonAttention、快速 All-Reduce 和 chunked 预先填充的全图形捕获 | AMD ROCm |
2.1. 启用新模型 复制链接链接已复制到粘贴板!
Red Hat AI Inference Server 3.2.0 通过在 vLLM v0.9.1 中启用以下模型来扩展功能:
- LoRA 支持 InternVL
- Magistral
- Minicpm eagle 支持
- NemotronH
vLLM v0.9.0 中添加了以下模型:
- dots1
- Ernie 4.5
- FalconH1
- Gemma‑3
- GLM‑4.1 V
- GPT-2 for Sequence Classification
- Granite 4
- Keye‑VL‑8B‑Preview
- LlamaGuard4
- MiMo-7B
- MiniMax-M1
- MiniMax-VL-01
- Ovis 1.6,Ovis 2
- Phi‑tiny‑MoE‑instruct
- Qwen 3 Embedding & Reranker
- Slim-MoE
- Tarsier 2
- Tencent HunYuan‑MoE‑V1