第 2 章 版本 3.2.0 发行注记


Red Hat AI Inference Server 3.2.0 版本为 NVIDIA CUDA 和 AMD ROCm AI Accelerators 提供了优化使用大型语言模型(LLM)的容器镜像。容器镜像可从 registry.redhat.io 提供:

  • registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.0
  • registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.2.0

利用红帽 AI Inference Server,您可以以更高的性能、更低的成本以及企业级稳定性和安全性提供高性能和推测模型。Red Hat AI Inference Server 基于上游开源 vLLM 软件项目构建。

本发行版本中包含了 vLLM 和 LLM Compressor 的新版本:

Red Hat AI Inference Server 支持的产品和硬件配置已被扩展。如需更多信息,请参阅支持的产品和硬件配置

Expand
表 2.1. AI 加速器性能亮点
功能优点支持的 GPU

Blackwell 计算功能 12.0

在支持 W8A8/FP8 内核和相关调优的 NVIDIA RTX PRO 6000 Blackwell Server Edition 上运行

NVIDIA RTX PRO 6000 Blackwell Server Edition

ROCm 的改进

TritonAttention、快速 All-Reduce 和 chunked 预先填充的全图形捕获

AMD ROCm

2.1. 启用新模型

Red Hat AI Inference Server 3.2.0 通过在 vLLM v0.9.1 中启用以下模型来扩展功能:

  • LoRA 支持 InternVL
  • Magistral
  • Minicpm eagle 支持
  • NemotronH

vLLM v0.9.0 中添加了以下模型:

  • dots1
  • Ernie 4.5
  • FalconH1
  • Gemma‑3
  • GLM‑4.1 V
  • GPT-2 for Sequence Classification
  • Granite 4
  • Keye‑VL‑8B‑Preview
  • LlamaGuard4
  • MiMo-7B
  • MiniMax-M1
  • MiniMax-VL-01
  • Ovis 1.6,Ovis 2
  • Phi‑tiny‑MoE‑instruct
  • Qwen 3 Embedding & Reranker
  • Slim-MoE
  • Tarsier 2
  • Tencent HunYuan‑MoE‑V1
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat