リリースノート

Red Hat AI Inference Server 3.2

Red Hat AI Inference Server リリースの新機能と変更点のハイライト

Red Hat AI Documentation Team

概要

Red Hat AI Inference Server のリリースノートでは、一般公開時のすべての新機能と拡張機能、主な技術上の変更点、以前のバージョンからの主要な修正、および既知のバグをまとめています。

はじめに
リンクのコピー

Red Hat AI Inference Server は、開発者や IT 組織に、最小限の設定とリソース使用量で、安全でスケーラブルなリソース上に AI モデルをデプロイおよびカスタマイズするためのスケーラブルな推論プラットフォームを提供します。

第1章バージョン 3.2.1 リリースノート
リンクのコピー

Red Hat AI Inference Server 3.2.1 リリースは、NVIDIA CUDA、AMD ROCm、および Google TPU AI アクセラレーター向けの大規模言語モデル (LLM) を使用して推論を最適化するコンテナーイメージを提供します。コンテナーイメージは、registry.redhat.io から入手できます。

registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.1
registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.2.1
registry.redhat.io/rhaiis/vllm-tpu-rhel9:3.2.1

Red Hat AI Inference Server 3.2.1 には、アップストリーム vLLM v0.10.0 リリースがパッケージ化されています。

更新の完全なリストは、アップストリームの vLLM v0.10.0 リリースノートで確認できます。

注記

Red Hat AI Inference Server 3.2.1 リリースには LLM Compressor がパッケージ化されていません。AI Inference Server で LLM Compressor を使用するには、以前の 3.2.0 コンテナーイメージをプルします。

Red Hat AI Inference Server でサポートされる製品とハードウェア設定が拡張されました。詳細はサポートされている製品およびハードウェア設定を参照してください。

1.1. 新しいモデルが有効に
リンクのコピー

Red Hat AI Inference Server 3.2.1 は、vLLM v0.10.0 の Red Hat AI Inference Server 3.2.1 で使用できるように、以下の新しく検証されたモデルを有効にすることで機能を拡張します。

EAGLE サポート付き Llama 4
EXAONE 4.0
Microsoft Phi‑4‑mini‑flash‑reasoning
Hunyuan V1 Dense + A13B (推論およびツール解析機能を含む)
Ling mixture-of-experts (MoE) モデル
JinaVL Reranker
Nemotron‑Nano‑VL‑8B‑V1
Arcee
Voxtral

1.2. 新しい開発者向け機能
リンクのコピー

推論エンジンの更新

V0 エンジンのクリーンアップ - レガシー CPU/XPU/TPU V0 バックエンドを削除しました。
--async-scheduling フラグを使用して実験的な非同期スケジューリングを有効にし、エンジンコアのスケジューリングを GPU ランナーとオーバーラップさせて推論スループットを向上させることができます。
キャプチャー前に gc.freeze を呼び出すことで、CUDA グラフの起動時間を短縮しました。

パフォーマンスの向上

同時リクエストのマイクロバッチトークン化を使用することで、リクエストの時間が 48% 短縮されました。
融合された MLA QKV とストライド付きレイヤー正規化を追加しました。
Mamba モデルに Triton causal-conv1d を追加しました。

新しい量子化オプション

Mixture of Experts モデルの MXFP4 量子化。
Mixtral モデルの BNB (Bits and Bytes) サポート。
ハードウェア固有の量子化の改善。

拡張モデルサポート

EAGLE 投機的デコーディングをサポートする Llama 4。
EXAONE 4.0 および Microsoft Phi-4-mini モデルファミリー。
Hunyuan V1 Dense および Ling MoE アーキテクチャー。

OpenAI との互換性

新しい OpenAI Responses API 実装を追加しました。
必須の選択肢と $defs を使用したツール呼び出しを追加しました。

依存関係の更新

Red Hat AI Inference Server Google TPU コンテナーイメージは、PyTorch 2.9.0 nightly-build 使用します。
NVIDIA CUDA は PyTorch 2.7.1 を使用します。
AMD ROCm は PyTorch 2.7.0 のままです。
FlashInfer ライブラリーが v0.2.8rc1 に更新されました。

1.3. 既知の問題
リンクのコピー

CoreOS 9.6、ROCm ドライバー 6.4.2、および複数の ROCm AI アクセラレーターを搭載した OpenShift Container Platform 4.19 で Red Hat AI Inference Server モデルをデプロイすると失敗します。この問題は、CoreOS 9.4 と、対応する ROCm ドライバー 6.4.2 バージョンを組み合わせた場合には発生しません。

この ROCm ドライバーの問題を回避するには、互換性のある OpenShift Container Platform と ROCm ドライバーバージョンをデプロイするようにしてください。

Expand

表1.1 サポートされている OpenShift Container Platform および ROCm ドライバーのバージョン
OpenShift Container Platform バージョン	ROCm ドライバーバージョン
4.17	6.4.2
4.17	6.3.4

第2章バージョン 3.2.0 リリースノート
リンクのコピー

Red Hat AI Inference Server 3.2.0 リリースは、NVIDIA CUDA および AMD ROCm AI アクセラレーター向けの大規模言語モデル (LLM) を使用して推論を最適化するコンテナーイメージを提供します。コンテナーイメージは、registry.redhat.io から入手できます。

registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.0
registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.2.0

Red Hat AI Inference Server を使用すると、パフォーマンスの向上、コストの低減、エンタープライズレベルの安定性とセキュリティーを確保しつつ、モデルのサービングと推論が可能です。Red Hat AI Inference Server は、アップストリームのオープンソース vLLM ソフトウェアプロジェクトをベースに構築されています。

このリリースには、vLLM と LLM Compressor の新しいバージョンが含まれています。

vLLM v0.9.2
- vLLM v0.9.0.1 以降、400 件以上のアップストリームコミット
LLM Compressor v0.6.0

Expand

表2.1 AI アクセラレーターのパフォーマンスのハイライト
機能	利点	サポートされている GPU
Blackwell コンピュート機能 12.0	W8A8/FP8 カーネルと関連チューニングをサポートする NVIDIA RTX PRO 6000 Blackwell Server Edition で動作します。	NVIDIA RTX PRO 6000 Blackwell Server Edition
ROCm の改善	Full‑graph capture for TritonAttention (TritonAttention のフルグラフキャプチャー)、quick All‑Reduce (高速な All-Reduce)、および chunked pre‑fill (チャンク化されたプリフィル)	AMD ROCm

2.1. 新しいモデルが有効に
リンクのコピー

Red Hat AI Inference Server 3.2.0 は、vLLM v0.9.1 で追加された次のモデルを有効にすることで機能を拡張します。

InternVL の LoRa サポート
Magistral
Minicpm eagle のサポート
NemotronH

vLLM v0.9.0 では次のモデルが追加されました。

dots1
Ernie 4.5
FalconH1
Gemma‑3
GLM‑4.1 V
シーケンス分類向けの GPT‑2
Granite 4
Keye‑VL‑8B‑Preview
LlamaGuard4
MiMo-7B
MiniMax-M1
MiniMax-VL-01
Ovis 1.6、Ovis 2
Phi‑tiny‑MoE‑instruct
Qwen 3 Embedding & Reranker
Slim-MoE
Tarsier 2
Tencent HunYuan‑MoE‑V1

2.2. 新しい開発者向け機能
リンクのコピー

スケジューラーのパフォーマンス向上

vLLM スケジューラー API CachedRequestData クラスが更新され、オブジェクトおよびキャッシュされたサンプラー ID ストアのパフォーマンスが向上しました。

CUDA グラフ実行

CUDA グラフ実行は、接頭辞キャッシュを含むすべての FlashAttention-3 (FA3) および FlashMLA パスで利用できるようになりました。
ライブ CUDA グラフのキャプチャー進捗バーが新たに追加され、デバッグが容易になります。

スケジューリング

優先スケジューリングが vLLM V1 エンジンに実装されました。

法律上の通知
リンクのコピー

The text of and illustrations in this document are licensed by Red Hat under a Creative Commons Attribution–Share Alike 3.0 Unported license ("CC-BY-SA"). An explanation of CC-BY-SA is available at http://creativecommons.org/licenses/by-sa/3.0/. In accordance with CC-BY-SA, if you distribute this document or an adaptation of it, you must provide the URL for the original version.

Red Hat, as the licensor of this document, waives the right to enforce, and agrees not to assert, Section 4d of CC-BY-SA to the fullest extent permitted by applicable law.

Red Hat, Red Hat Enterprise Linux, the Shadowman logo, the Red Hat logo, JBoss, OpenShift, Fedora, the Infinity logo, and RHCE are trademarks of Red Hat, Inc., registered in the United States and other countries.

Linux® is the registered trademark of Linus Torvalds in the United States and other countries.

Java® is a registered trademark of Oracle and/or its affiliates.

XFS® is a trademark of Silicon Graphics International Corp. or its subsidiaries in the United States and/or other countries.

MySQL® is a registered trademark of MySQL AB in the United States, the European Union and other countries.

Node.js® is an official trademark of Joyent. Red Hat is not formally related to or endorsed by the official Joyent Node.js open source or commercial project.

The OpenStack® Word Mark and OpenStack logo are either registered trademarks/service marks or trademarks/service marks of the OpenStack Foundation, in the United States and other countries and are used with the OpenStack Foundation's permission. We are not affiliated with, endorsed or sponsored by the OpenStack Foundation, or the OpenStack community.

All other trademarks are the property of their respective owners.

リリースノート

Red Hat AI Inference Server リリースの新機能と変更点のハイライト

はじめに
リンクのコピー

第1章バージョン 3.2.1 リリースノート
リンクのコピー

1.1. 新しいモデルが有効に
リンクのコピー

1.2. 新しい開発者向け機能
リンクのコピー

1.3. 既知の問題
リンクのコピー

第2章バージョン 3.2.0 リリースノート
リンクのコピー

2.1. 新しいモデルが有効に
リンクのコピー

2.2. 新しい開発者向け機能
リンクのコピー

法律上の通知
リンクのコピー

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

リリースノート

Red Hat AI Inference Server リリースの新機能と変更点のハイライト

はじめにリンクのコピーリンクがクリップボードにコピーされました!

第1章 バージョン 3.2.1 リリースノートリンクのコピーリンクがクリップボードにコピーされました!

1.1. 新しいモデルが有効にリンクのコピーリンクがクリップボードにコピーされました!

1.2. 新しい開発者向け機能リンクのコピーリンクがクリップボードにコピーされました!

1.3. 既知の問題リンクのコピーリンクがクリップボードにコピーされました!

第2章 バージョン 3.2.0 リリースノートリンクのコピーリンクがクリップボードにコピーされました!

2.1. 新しいモデルが有効にリンクのコピーリンクがクリップボードにコピーされました!

2.2. 新しい開発者向け機能リンクのコピーリンクがクリップボードにコピーされました!

法律上の通知リンクのコピーリンクがクリップボードにコピーされました!

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

はじめに
リンクのコピー

第1章バージョン 3.2.1 リリースノート
リンクのコピー

1.1. 新しいモデルが有効に
リンクのコピー

1.2. 新しい開発者向け機能
リンクのコピー

1.3. 既知の問題
リンクのコピー

第2章バージョン 3.2.0 リリースノート
リンクのコピー

2.1. 新しいモデルが有効に
リンクのコピー

2.2. 新しい開発者向け機能
リンクのコピー

法律上の通知
リンクのコピー