第 1 章 版本 3.2.1 发行注记
Red Hat AI Inference Server 3.2.1 发行版本为 NVIDIA CUDA、AMD ROCm 和 Google TPU AI Accelerators 提供了优化使用大型语言模型(LLM)的容器镜像。容器镜像可从 registry.redhat.io 提供:
-
registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.1
-
registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.2.1
-
registry.redhat.io/rhaiis/vllm-tpu-rhel9:3.2.1
Red Hat AI Inference Server 3.2.1 软件包上游 vLLM v0.10.0 发行版本。
您可以查看上游 vLLM v0.10.0 发行注记中的更新的完整列表。
注意
Red Hat AI Inference Server 3.2.1 版本不打包 LLM Compressor。拉取之前的 3.2.0 容器镜像,以使用 LLM Compressor 和 AI Inference Server。
Red Hat AI Inference Server 支持的产品和硬件配置已被扩展。如需更多信息,请参阅支持的产品和硬件配置。
1.1. 启用新模型 复制链接链接已复制到粘贴板!
复制链接链接已复制到粘贴板!
Red Hat AI Inference Server 3.2.1 通过启用以下新验证模型以用于 vLLM v0.10.0 中的 Red Hat AI Inference Server 3.2.1 来扩展功能:
- 支持 EAGLE 的 Llama 4
- EXAONE 4.0
- Microsoft Phi-4-mini-flash-reasoning
- Hunyuan V1 Dense + A13B,包括原因和工具的能力
- Ling mix-of-experts (MoE)模型
- JinaVL Reranker
- Nemotron‑Nano‑VL‑8B‑V1
- arcee
- Voxtral