リリースノート


Red Hat AI Inference Server 3.1

Red Hat AI Inference Server リリースの新機能と変更点のハイライト

Red Hat AI Documentation Team

概要

Red Hat AI Inference Server のリリースノートでは、一般公開時のすべての新機能と拡張機能、主な技術上の変更点、以前のバージョンからの主要な修正、および既知のバグをまとめています。

はじめに

Red Hat AI Inference Server は、開発者や IT 組織に、最小限の設定とリソース使用量で、安全でスケーラブルなリソース上に AI モデルをデプロイおよびカスタマイズするためのスケーラブルな推論プラットフォームを提供します。

第1章 このリリースについて

Red Hat AI Inference Server が利用可能になりました。Red Hat AI Inference Server 3.1 リリースでは、NVIDIA および ROCm アクセラレーター向けの大規模言語モデル (LLM) を使用して推論を最適化するコンテナーイメージを提供します。コンテナーイメージは、registry.redhat.io から入手できます。

  • registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.1.0
  • registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.1.0

Red Hat AI Inference Server を使用すると、パフォーマンスの向上、コストの低減、エンタープライズレベルの安定性とセキュリティーを確保しつつ、モデルのサービングと推論が可能です。Red Hat AI Inference Server は、アップストリームのオープンソース vLLM ソフトウェアプロジェクトをベースに構築されています。

第2章 新機能および機能拡張

  • このリリースには、vLLM と LLM Compressor の新しいバージョンが含まれています。

    • vLLM v0.9.0.1

      • vLLM v0.8.4 以降、900 件以上のアップストリームコミット。新しい機能には、FP8 融合型 Mixture of Experts (MoE) カーネル、14 個の新しいモデルのサポート、/server_info エンドポイント、動的 LoRA ホットリロードが含まれます。
    • LLM Compressor v0.5.1
  • Red Hat AI Inference Server コンテナーベースは、PyTorch 2.7 と Triton 3.2 に構築されるようになりました。
  • Red Hat AI Inference Server は、FIPS 準拠の Red Hat Enterprise Linux (RHEL) ホストで完全にサポートされるようになりました。
  • Red Hat AI Inference Server でサポートされる製品とハードウェア設定が拡張されました。詳細は、サポートされている製品およびハードウェア設定 を参照してください。
Expand
表2.1 AI アクセラレーターのパフォーマンスのハイライト
機能利点サポートされている GPU

Blackwell サポート

FP8 カーネルと完全な CUDA Graph アクセラレーションを備えた NVIDIA B200 コンピュート機能 10.0 GPU で実行

NVIDIA Blackwell

ROCm 上の FP8 KV キャッシュ

精度を損なうことなくコンテキストウィンドウが約 2 倍に拡大

すべての AMD GPU

Skinny GEMM

推論のレイテンシーが約 10% 低下

AMD MI300X

フル CUDA Graph モード

小規模モデルの平均出力トークン時間 (TPOT) が 6-8% 改善されました。

NVIDIA A100 および H100

自動 FP16 フォールバック

NVIDIA T4 GPU など、手動フラグのない Ampere 以前のカードでも安定して動作します。

古い NVIDIA GPU

2.1. 新しいモデルが有効に

Red Hat AI Inference Server 3.1 では、次のモデルを有効にすることで機能が拡張されます。

  • vLLM バージョン 0.8.5 で追加:

    • Qwen3 および Qwen3MoE
    • ModernBERT
    • Granite Speech
    • PLaMo2
    • Kimi-VL
    • Snowflake Arctic Embed
  • vLLM バージョン 0.9.0 で追加:

    • MiMo-7B
    • MiniMax-VL-01
    • Ovis 1.6、Ovis 2
    • Granite 4
    • FalconH1
    • LlamaGuard4

2.2. 新しい開発者向け機能

/server_info REST エンドポイント
可観測性と自動化のためにモデル、KV キャッシュ、デバイス設定をクエリーします。
動的 LoRA ホットリロード
ダウンタイムなしで URL から微調整されたアダプターを交換します。
vllm-bench CLI
即時のレイテンシーとスループットのサイズ設定を可能にする "コンテナー内出荷ツール"。
より高速な段階的なトークン化解除
CUDA および ROCm GPU では、ストリーミング応答が 2 倍の速さで開始します。
torch.compile キャッシュ
キャッシュされた最初のプロンプトのコンパイルにより、ホストの再起動時のウォームアップ時間が短縮されます。

2.3. 新しい操作機能

総所有コスト (TCO) の削減
FP8/INT8 カーネルとスキニー GEMM により、同じ GPU で 1 秒あたりに処理できるトークン数が増えます。
AMD GPU 上のより大きなモデル
ROCm は、FP8 および融合型 MoE モデルのパフォーマンスにおいて CUDA に匹敵するようになり、AMD MI300X は第一級のデプロイメントターゲットになりました。
運用の俊敏性
LoRA ホットスワップと /server_info エンドポイントにより、Pod を再起動せずにモデルの微調整のための継続的な統合とデプロイメントが可能になります。

第3章 既知の問題

  • --enable-chunked-prefill を有効にした Red Hat AI Inference Server 3.1 コンテナーイメージを使用して NVIDIA T4 アクセラレーターにモデルをデプロイすると、チャットまたはテキスト補完クエリーによってモデル推論がクラッシュして再起動します。この問題を回避するには、モデルをデプロイするときに --enable-chunked-prefill フラグを削除します。

法律上の通知

Copyright © 2025 Red Hat, Inc.
The text of and illustrations in this document are licensed by Red Hat under a Creative Commons Attribution–Share Alike 3.0 Unported license ("CC-BY-SA"). An explanation of CC-BY-SA is available at http://creativecommons.org/licenses/by-sa/3.0/. In accordance with CC-BY-SA, if you distribute this document or an adaptation of it, you must provide the URL for the original version.
Red Hat, as the licensor of this document, waives the right to enforce, and agrees not to assert, Section 4d of CC-BY-SA to the fullest extent permitted by applicable law.
Red Hat, Red Hat Enterprise Linux, the Shadowman logo, the Red Hat logo, JBoss, OpenShift, Fedora, the Infinity logo, and RHCE are trademarks of Red Hat, Inc., registered in the United States and other countries.
Linux® is the registered trademark of Linus Torvalds in the United States and other countries.
Java® is a registered trademark of Oracle and/or its affiliates.
XFS® is a trademark of Silicon Graphics International Corp. or its subsidiaries in the United States and/or other countries.
MySQL® is a registered trademark of MySQL AB in the United States, the European Union and other countries.
Node.js® is an official trademark of Joyent. Red Hat is not formally related to or endorsed by the official Joyent Node.js open source or commercial project.
The OpenStack® Word Mark and OpenStack logo are either registered trademarks/service marks or trademarks/service marks of the OpenStack Foundation, in the United States and other countries and are used with the OpenStack Foundation's permission. We are not affiliated with, endorsed or sponsored by the OpenStack Foundation, or the OpenStack community.
All other trademarks are the property of their respective owners.
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2026 Red Hat
トップに戻る