第2章バージョン 3.2.0 リリースノート

Red Hat AI Inference Server 3.2.0 リリースは、NVIDIA CUDA および AMD ROCm AI アクセラレーター向けの大規模言語モデル (LLM) を使用して推論を最適化するコンテナーイメージを提供します。コンテナーイメージは、registry.redhat.io から入手できます。

registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.0
registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.2.0

Red Hat AI Inference Server を使用すると、パフォーマンスの向上、コストの低減、エンタープライズレベルの安定性とセキュリティーを確保しつつ、モデルのサービングと推論が可能です。Red Hat AI Inference Server は、アップストリームのオープンソース vLLM ソフトウェアプロジェクトをベースに構築されています。

このリリースには、vLLM と LLM Compressor の新しいバージョンが含まれています。

vLLM v0.9.2
- vLLM v0.9.0.1 以降、400 件以上のアップストリームコミット
LLM Compressor v0.6.0

Red Hat AI Inference Server でサポートされる製品とハードウェア設定が拡張されました。詳細はサポートされている製品およびハードウェア設定を参照してください。

Expand

表2.1 AI アクセラレーターのパフォーマンスのハイライト
機能	利点	サポートされている GPU
Blackwell コンピュート機能 12.0	W8A8/FP8 カーネルと関連チューニングをサポートする NVIDIA RTX PRO 6000 Blackwell Server Edition で動作します。	NVIDIA RTX PRO 6000 Blackwell Server Edition
ROCm の改善	Full‑graph capture for TritonAttention (TritonAttention のフルグラフキャプチャー)、quick All‑Reduce (高速な All-Reduce)、および chunked pre‑fill (チャンク化されたプリフィル)	AMD ROCm

2.1. 新しいモデルが有効に
リンクのコピー

Red Hat AI Inference Server 3.2.0 は、vLLM v0.9.1 で追加された次のモデルを有効にすることで機能を拡張します。

InternVL の LoRa サポート
Magistral
Minicpm eagle のサポート
NemotronH

vLLM v0.9.0 では次のモデルが追加されました。

dots1
Ernie 4.5
FalconH1
Gemma‑3
GLM‑4.1 V
シーケンス分類向けの GPT‑2
Granite 4
Keye‑VL‑8B‑Preview
LlamaGuard4
MiMo-7B
MiniMax-M1
MiniMax-VL-01
Ovis 1.6、Ovis 2
Phi‑tiny‑MoE‑instruct
Qwen 3 Embedding & Reranker
Slim-MoE
Tarsier 2
Tencent HunYuan‑MoE‑V1

第2章バージョン 3.2.0 リリースノート

2.1. 新しいモデルが有効に
リンクのコピー

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第2章 バージョン 3.2.0 リリースノート

2.1. 新しいモデルが有効にリンクのコピーリンクがクリップボードにコピーされました!

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第2章バージョン 3.2.0 リリースノート

2.1. 新しいモデルが有効に
リンクのコピー