リリースノート


Red Hat AI Inference Server 3.2

Red Hat AI Inference Server リリースの新機能と変更点のハイライト

Red Hat AI Documentation Team

概要

Red Hat AI Inference Server のリリースノートでは、一般公開時のすべての新機能と拡張機能、主な技術上の変更点、以前のバージョンからの主要な修正、および既知のバグをまとめています。

はじめに

Red Hat AI Inference Server は、開発者や IT 組織に、最小限の設定とリソース使用量で、安全でスケーラブルなリソース上に AI モデルをデプロイおよびカスタマイズするためのスケーラブルな推論プラットフォームを提供します。

第1章 バージョン 3.2.1 リリースノート

Red Hat AI Inference Server 3.2.1 リリースは、NVIDIA CUDA、AMD ROCm、および Google TPU AI アクセラレーター向けの大規模言語モデル (LLM) を使用して推論を最適化するコンテナーイメージを提供します。コンテナーイメージは、registry.redhat.io から入手できます。

  • registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.1
  • registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.2.1
  • registry.redhat.io/rhaiis/vllm-tpu-rhel9:3.2.1

Red Hat AI Inference Server 3.2.1 には、アップストリーム vLLM v0.10.0 リリースがパッケージ化されています。

更新の完全なリストは、アップストリームの vLLM v0.10.0 リリースノート で確認できます。

注記

Red Hat AI Inference Server 3.2.1 リリースには LLM Compressor がパッケージ化されていません。AI Inference Server で LLM Compressor を使用するには、以前の 3.2.0 コンテナーイメージをプルします。

Red Hat AI Inference Server でサポートされる製品とハードウェア設定が拡張されました。詳細は サポートされている製品およびハードウェア設定 を参照してください。

1.1. 新しいモデルが有効に

Red Hat AI Inference Server 3.2.1 は、vLLM v0.10.0 の Red Hat AI Inference Server 3.2.1 で使用できるように、以下の新しく検証されたモデルを有効にすることで機能を拡張します。

  • EAGLE サポート付き Llama 4
  • EXAONE 4.0
  • Microsoft Phi‑4‑mini‑flash‑reasoning
  • Hunyuan V1 Dense + A13B (推論およびツール解析機能を含む)
  • Ling mixture-of-experts (MoE) モデル
  • JinaVL Reranker
  • Nemotron‑Nano‑VL‑8B‑V1
  • Arcee
  • Voxtral

1.2. 新しい開発者向け機能

推論エンジンの更新
  • V0 エンジンのクリーンアップ - レガシー CPU/XPU/TPU V0 バックエンドを削除しました。
  • --async-scheduling フラグを使用して実験的な非同期スケジューリングを有効にし、エンジンコアのスケジューリングを GPU ランナーとオーバーラップさせて推論スループットを向上させることができます。
  • キャプチャー前に gc.freeze を呼び出すことで、CUDA グラフの起動時間を短縮しました。
パフォーマンスの向上
  • 同時リクエストのマイクロバッチトークン化を使用することで、リクエストの時間が 48% 短縮されました。
  • 融合された MLA QKV とストライド付きレイヤー正規化を追加しました。
  • Mamba モデルに Triton causal-conv1d を追加しました。
新しい量子化オプション
  • Mixture of Experts モデルの MXFP4 量子化。
  • Mixtral モデルの BNB (Bits and Bytes) サポート。
  • ハードウェア固有の量子化の改善。
拡張モデルサポート
  • EAGLE 投機的デコーディングをサポートする Llama 4。
  • EXAONE 4.0 および Microsoft Phi-4-mini モデルファミリー。
  • Hunyuan V1 Dense および Ling MoE アーキテクチャー。
OpenAI との互換性
  • 新しい OpenAI Responses API 実装を追加しました。
  • 必須の選択肢と $defs を使用したツール呼び出しを追加しました。
依存関係の更新
  • Red Hat AI Inference Server Google TPU コンテナーイメージは、PyTorch 2.9.0 nightly-build 使用します。
  • NVIDIA CUDA は PyTorch 2.7.1 を使用します。
  • AMD ROCm は PyTorch 2.7.0 のままです。
  • FlashInfer ライブラリーが v0.2.8rc1 に更新されました。

1.3. 既知の問題

  • CoreOS 9.6、ROCm ドライバー 6.4.2、および複数の ROCm AI アクセラレーターを搭載した OpenShift Container Platform 4.19 で Red Hat AI Inference Server モデルをデプロイすると失敗します。この問題は、CoreOS 9.4 と、対応する ROCm ドライバー 6.4.2 バージョンを組み合わせた場合には発生しません。

    この ROCm ドライバーの問題を回避するには、互換性のある OpenShift Container Platform と ROCm ドライバーバージョンをデプロイするようにしてください。

    Expand
    表1.1 サポートされている OpenShift Container Platform および ROCm ドライバーのバージョン
    OpenShift Container Platform バージョンROCm ドライバーバージョン

    4.17

    6.4.2

    4.17

    6.3.4

第2章 バージョン 3.2.0 リリースノート

Red Hat AI Inference Server 3.2.0 リリースは、NVIDIA CUDA および AMD ROCm AI アクセラレーター向けの大規模言語モデル (LLM) を使用して推論を最適化するコンテナーイメージを提供します。コンテナーイメージは、registry.redhat.io から入手できます。

  • registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.0
  • registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.2.0

Red Hat AI Inference Server を使用すると、パフォーマンスの向上、コストの低減、エンタープライズレベルの安定性とセキュリティーを確保しつつ、モデルのサービングと推論が可能です。Red Hat AI Inference Server は、アップストリームのオープンソース vLLM ソフトウェアプロジェクトをベースに構築されています。

このリリースには、vLLM と LLM Compressor の新しいバージョンが含まれています。

Red Hat AI Inference Server でサポートされる製品とハードウェア設定が拡張されました。詳細は サポートされている製品およびハードウェア設定 を参照してください。

Expand
表2.1 AI アクセラレーターのパフォーマンスのハイライト
機能利点サポートされている GPU

Blackwell コンピュート機能 12.0

W8A8/FP8 カーネルと関連チューニングをサポートする NVIDIA RTX PRO 6000 Blackwell Server Edition で動作します。

NVIDIA RTX PRO 6000 Blackwell Server Edition

ROCm の改善

Full‑graph capture for TritonAttention (TritonAttention のフルグラフキャプチャー)、quick All‑Reduce (高速な All-Reduce)、および chunked pre‑fill (チャンク化されたプリフィル)

AMD ROCm

2.1. 新しいモデルが有効に

Red Hat AI Inference Server 3.2.0 は、vLLM v0.9.1 で追加された次のモデルを有効にすることで機能を拡張します。

  • InternVL の LoRa サポート
  • Magistral
  • Minicpm eagle のサポート
  • NemotronH

vLLM v0.9.0 では次のモデルが追加されました。

  • dots1
  • Ernie 4.5
  • FalconH1
  • Gemma‑3
  • GLM‑4.1 V
  • シーケンス分類向けの GPT‑2
  • Granite 4
  • Keye‑VL‑8B‑Preview
  • LlamaGuard4
  • MiMo-7B
  • MiniMax-M1
  • MiniMax-VL-01
  • Ovis 1.6、Ovis 2
  • Phi‑tiny‑MoE‑instruct
  • Qwen 3 Embedding & Reranker
  • Slim-MoE
  • Tarsier 2
  • Tencent HunYuan‑MoE‑V1

2.2. 新しい開発者向け機能

スケジューラーのパフォーマンス向上
vLLM スケジューラー API CachedRequestData クラスが更新され、オブジェクトおよびキャッシュされたサンプラー ID ストアのパフォーマンスが向上しました。
CUDA グラフ実行
  • CUDA グラフ実行は、接頭辞キャッシュを含むすべての FlashAttention-3 (FA3) および FlashMLA パスで利用できるようになりました。
  • ライブ CUDA グラフのキャプチャー進捗バーが新たに追加され、デバッグが容易になります。
スケジューリング
優先スケジューリングが vLLM V1 エンジンに実装されました。

法律上の通知

Copyright © 2025 Red Hat, Inc.
The text of and illustrations in this document are licensed by Red Hat under a Creative Commons Attribution–Share Alike 3.0 Unported license ("CC-BY-SA"). An explanation of CC-BY-SA is available at http://creativecommons.org/licenses/by-sa/3.0/. In accordance with CC-BY-SA, if you distribute this document or an adaptation of it, you must provide the URL for the original version.
Red Hat, as the licensor of this document, waives the right to enforce, and agrees not to assert, Section 4d of CC-BY-SA to the fullest extent permitted by applicable law.
Red Hat, Red Hat Enterprise Linux, the Shadowman logo, the Red Hat logo, JBoss, OpenShift, Fedora, the Infinity logo, and RHCE are trademarks of Red Hat, Inc., registered in the United States and other countries.
Linux® is the registered trademark of Linus Torvalds in the United States and other countries.
Java® is a registered trademark of Oracle and/or its affiliates.
XFS® is a trademark of Silicon Graphics International Corp. or its subsidiaries in the United States and/or other countries.
MySQL® is a registered trademark of MySQL AB in the United States, the European Union and other countries.
Node.js® is an official trademark of Joyent. Red Hat is not formally related to or endorsed by the official Joyent Node.js open source or commercial project.
The OpenStack® Word Mark and OpenStack logo are either registered trademarks/service marks or trademarks/service marks of the OpenStack Foundation, in the United States and other countries and are used with the OpenStack Foundation's permission. We are not affiliated with, endorsed or sponsored by the OpenStack Foundation, or the OpenStack community.
All other trademarks are the property of their respective owners.
トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat