リリースノート
Red Hat AI Inference Server リリースの新機能と変更点のハイライト
概要
はじめに リンクのコピーリンクがクリップボードにコピーされました!
Red Hat AI Inference Server は、開発者や IT 組織に、最小限の設定とリソース使用量で、安全でスケーラブルなリソース上に AI モデルをデプロイおよびカスタマイズするためのスケーラブルな推論プラットフォームを提供します。
第1章 バージョン 3.2.1 リリースノート リンクのコピーリンクがクリップボードにコピーされました!
Red Hat AI Inference Server 3.2.1 リリースは、NVIDIA CUDA、AMD ROCm、および Google TPU AI アクセラレーター向けの大規模言語モデル (LLM) を使用して推論を最適化するコンテナーイメージを提供します。コンテナーイメージは、registry.redhat.io から入手できます。
-
registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.1 -
registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.2.1 -
registry.redhat.io/rhaiis/vllm-tpu-rhel9:3.2.1
Red Hat AI Inference Server 3.2.1 には、アップストリーム vLLM v0.10.0 リリースがパッケージ化されています。
更新の完全なリストは、アップストリームの vLLM v0.10.0 リリースノート で確認できます。
Red Hat AI Inference Server 3.2.1 リリースには LLM Compressor がパッケージ化されていません。AI Inference Server で LLM Compressor を使用するには、以前の 3.2.0 コンテナーイメージをプルします。
Red Hat AI Inference Server でサポートされる製品とハードウェア設定が拡張されました。詳細は サポートされている製品およびハードウェア設定 を参照してください。
1.1. 新しいモデルが有効に リンクのコピーリンクがクリップボードにコピーされました!
Red Hat AI Inference Server 3.2.1 は、vLLM v0.10.0 の Red Hat AI Inference Server 3.2.1 で使用できるように、以下の新しく検証されたモデルを有効にすることで機能を拡張します。
- EAGLE サポート付き Llama 4
- EXAONE 4.0
- Microsoft Phi‑4‑mini‑flash‑reasoning
- Hunyuan V1 Dense + A13B (推論およびツール解析機能を含む)
- Ling mixture-of-experts (MoE) モデル
- JinaVL Reranker
- Nemotron‑Nano‑VL‑8B‑V1
- Arcee
- Voxtral
1.2. 新しい開発者向け機能 リンクのコピーリンクがクリップボードにコピーされました!
- 推論エンジンの更新
- V0 エンジンのクリーンアップ - レガシー CPU/XPU/TPU V0 バックエンドを削除しました。
-
--async-schedulingフラグを使用して実験的な非同期スケジューリングを有効にし、エンジンコアのスケジューリングを GPU ランナーとオーバーラップさせて推論スループットを向上させることができます。 -
キャプチャー前に
gc.freezeを呼び出すことで、CUDA グラフの起動時間を短縮しました。
- パフォーマンスの向上
- 同時リクエストのマイクロバッチトークン化を使用することで、リクエストの時間が 48% 短縮されました。
- 融合された MLA QKV とストライド付きレイヤー正規化を追加しました。
- Mamba モデルに Triton causal-conv1d を追加しました。
- 新しい量子化オプション
- Mixture of Experts モデルの MXFP4 量子化。
- Mixtral モデルの BNB (Bits and Bytes) サポート。
- ハードウェア固有の量子化の改善。
- 拡張モデルサポート
- EAGLE 投機的デコーディングをサポートする Llama 4。
- EXAONE 4.0 および Microsoft Phi-4-mini モデルファミリー。
- Hunyuan V1 Dense および Ling MoE アーキテクチャー。
- OpenAI との互換性
- 新しい OpenAI Responses API 実装を追加しました。
-
必須の選択肢と
$defsを使用したツール呼び出しを追加しました。
- 依存関係の更新
- Red Hat AI Inference Server Google TPU コンテナーイメージは、PyTorch 2.9.0 nightly-build 使用します。
- NVIDIA CUDA は PyTorch 2.7.1 を使用します。
- AMD ROCm は PyTorch 2.7.0 のままです。
- FlashInfer ライブラリーが v0.2.8rc1 に更新されました。
1.3. 既知の問題 リンクのコピーリンクがクリップボードにコピーされました!
CoreOS 9.6、ROCm ドライバー 6.4.2、および複数の ROCm AI アクセラレーターを搭載した OpenShift Container Platform 4.19 で Red Hat AI Inference Server モデルをデプロイすると失敗します。この問題は、CoreOS 9.4 と、対応する ROCm ドライバー 6.4.2 バージョンを組み合わせた場合には発生しません。
この ROCm ドライバーの問題を回避するには、互換性のある OpenShift Container Platform と ROCm ドライバーバージョンをデプロイするようにしてください。
Expand 表1.1 サポートされている OpenShift Container Platform および ROCm ドライバーのバージョン OpenShift Container Platform バージョン ROCm ドライバーバージョン 4.17
6.4.2
4.17
6.3.4
第2章 バージョン 3.2.0 リリースノート リンクのコピーリンクがクリップボードにコピーされました!
Red Hat AI Inference Server 3.2.0 リリースは、NVIDIA CUDA および AMD ROCm AI アクセラレーター向けの大規模言語モデル (LLM) を使用して推論を最適化するコンテナーイメージを提供します。コンテナーイメージは、registry.redhat.io から入手できます。
-
registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.0 -
registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.2.0
Red Hat AI Inference Server を使用すると、パフォーマンスの向上、コストの低減、エンタープライズレベルの安定性とセキュリティーを確保しつつ、モデルのサービングと推論が可能です。Red Hat AI Inference Server は、アップストリームのオープンソース vLLM ソフトウェアプロジェクトをベースに構築されています。
このリリースには、vLLM と LLM Compressor の新しいバージョンが含まれています。
- vLLM v0.9.0.1 以降、400 件以上のアップストリームコミット
- LLM Compressor v0.6.0
Red Hat AI Inference Server でサポートされる製品とハードウェア設定が拡張されました。詳細は サポートされている製品およびハードウェア設定 を参照してください。
| 機能 | 利点 | サポートされている GPU |
|---|---|---|
| Blackwell コンピュート機能 12.0 | W8A8/FP8 カーネルと関連チューニングをサポートする NVIDIA RTX PRO 6000 Blackwell Server Edition で動作します。 | NVIDIA RTX PRO 6000 Blackwell Server Edition |
| ROCm の改善 | Full‑graph capture for TritonAttention (TritonAttention のフルグラフキャプチャー)、quick All‑Reduce (高速な All-Reduce)、および chunked pre‑fill (チャンク化されたプリフィル) | AMD ROCm |
2.1. 新しいモデルが有効に リンクのコピーリンクがクリップボードにコピーされました!
Red Hat AI Inference Server 3.2.0 は、vLLM v0.9.1 で追加された次のモデルを有効にすることで機能を拡張します。
- InternVL の LoRa サポート
- Magistral
- Minicpm eagle のサポート
- NemotronH
vLLM v0.9.0 では次のモデルが追加されました。
- dots1
- Ernie 4.5
- FalconH1
- Gemma‑3
- GLM‑4.1 V
- シーケンス分類向けの GPT‑2
- Granite 4
- Keye‑VL‑8B‑Preview
- LlamaGuard4
- MiMo-7B
- MiniMax-M1
- MiniMax-VL-01
- Ovis 1.6、Ovis 2
- Phi‑tiny‑MoE‑instruct
- Qwen 3 Embedding & Reranker
- Slim-MoE
- Tarsier 2
- Tencent HunYuan‑MoE‑V1
2.2. 新しい開発者向け機能 リンクのコピーリンクがクリップボードにコピーされました!
- スケジューラーのパフォーマンス向上
-
vLLM スケジューラー API
CachedRequestDataクラスが更新され、オブジェクトおよびキャッシュされたサンプラー ID ストアのパフォーマンスが向上しました。 - CUDA グラフ実行
- CUDA グラフ実行は、接頭辞キャッシュを含むすべての FlashAttention-3 (FA3) および FlashMLA パスで利用できるようになりました。
- ライブ CUDA グラフのキャプチャー進捗バーが新たに追加され、デバッグが容易になります。
- スケジューリング
- 優先スケジューリングが vLLM V1 エンジンに実装されました。