第 2 章版本 3.2.0 发行注记

Red Hat AI Inference Server 3.2.0 版本为 NVIDIA CUDA 和 AMD ROCm AI Accelerators 提供了优化使用大型语言模型(LLM)的容器镜像。容器镜像可从 registry.redhat.io 提供：

利用红帽 AI Inference Server，您可以以更高的性能、更低的成本以及企业级稳定性和安全性提供高性能和推测模型。Red Hat AI Inference Server 基于上游开源 vLLM 软件项目构建。

本发行版本中包含了 vLLM 和 LLM Compressor 的新版本：

Red Hat AI Inference Server 支持的产品和硬件配置已被扩展。如需更多信息，请参阅支持的产品和硬件配置。

Expand

表 2.1. AI 加速器性能亮点
功能	优点	支持的 GPU
Blackwell 计算功能 12.0	在支持 W8A8/FP8 内核和相关调优的 NVIDIA RTX PRO 6000 Blackwell Server Edition 上运行	NVIDIA RTX PRO 6000 Blackwell Server Edition
ROCm 的改进	TritonAttention、快速 All-Reduce 和 chunked 预先填充的全图形捕获	AMD ROCm

2.1. 启用新模型
复制链接

Red Hat AI Inference Server 3.2.0 通过在 vLLM v0.9.1 中启用以下模型来扩展功能：

vLLM v0.9.0 中添加了以下模型：