第2章 バージョン 3.2.0 リリースノート
Red Hat AI Inference Server 3.2.0 リリースは、NVIDIA CUDA および AMD ROCm AI アクセラレーター向けの大規模言語モデル (LLM) を使用して推論を最適化するコンテナーイメージを提供します。コンテナーイメージは、registry.redhat.io から入手できます。
-
registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.0 -
registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.2.0
Red Hat AI Inference Server を使用すると、パフォーマンスの向上、コストの低減、エンタープライズレベルの安定性とセキュリティーを確保しつつ、モデルのサービングと推論が可能です。Red Hat AI Inference Server は、アップストリームのオープンソース vLLM ソフトウェアプロジェクトをベースに構築されています。
このリリースには、vLLM と LLM Compressor の新しいバージョンが含まれています。
- vLLM v0.9.0.1 以降、400 件以上のアップストリームコミット
- LLM Compressor v0.6.0
Red Hat AI Inference Server でサポートされる製品とハードウェア設定が拡張されました。詳細は サポートされている製品およびハードウェア設定 を参照してください。
| 機能 | 利点 | サポートされている GPU |
|---|---|---|
| Blackwell コンピュート機能 12.0 | W8A8/FP8 カーネルと関連チューニングをサポートする NVIDIA RTX PRO 6000 Blackwell Server Edition で動作します。 | NVIDIA RTX PRO 6000 Blackwell Server Edition |
| ROCm の改善 | Full‑graph capture for TritonAttention (TritonAttention のフルグラフキャプチャー)、quick All‑Reduce (高速な All-Reduce)、および chunked pre‑fill (チャンク化されたプリフィル) | AMD ROCm |
2.1. 新しいモデルが有効に リンクのコピーリンクがクリップボードにコピーされました!
Red Hat AI Inference Server 3.2.0 は、vLLM v0.9.1 で追加された次のモデルを有効にすることで機能を拡張します。
- InternVL の LoRa サポート
- Magistral
- Minicpm eagle のサポート
- NemotronH
vLLM v0.9.0 では次のモデルが追加されました。
- dots1
- Ernie 4.5
- FalconH1
- Gemma‑3
- GLM‑4.1 V
- シーケンス分類向けの GPT‑2
- Granite 4
- Keye‑VL‑8B‑Preview
- LlamaGuard4
- MiMo-7B
- MiniMax-M1
- MiniMax-VL-01
- Ovis 1.6、Ovis 2
- Phi‑tiny‑MoE‑instruct
- Qwen 3 Embedding & Reranker
- Slim-MoE
- Tarsier 2
- Tencent HunYuan‑MoE‑V1