リリースノート
Red Hat AI Inference Server リリースの新機能と変更点のハイライト
概要
はじめに リンクのコピーリンクがクリップボードにコピーされました!
Red Hat AI Inference Server は、開発者や IT 組織に、最小限の設定とリソース使用量で、安全でスケーラブルなリソース上に AI モデルをデプロイおよびカスタマイズするためのスケーラブルな推論プラットフォームを提供します。
第1章 このリリースについて リンクのコピーリンクがクリップボードにコピーされました!
Red Hat AI Inference Server が利用可能になりました。Red Hat AI Inference Server 3.1 リリースでは、NVIDIA および ROCm アクセラレーター向けの大規模言語モデル (LLM) を使用して推論を最適化するコンテナーイメージを提供します。コンテナーイメージは、registry.redhat.io から入手できます。
-
registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.1.0 -
registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.1.0
Red Hat AI Inference Server を使用すると、パフォーマンスの向上、コストの低減、エンタープライズレベルの安定性とセキュリティーを確保しつつ、モデルのサービングと推論が可能です。Red Hat AI Inference Server は、アップストリームのオープンソース vLLM ソフトウェアプロジェクトをベースに構築されています。
第2章 新機能および機能拡張 リンクのコピーリンクがクリップボードにコピーされました!
このリリースには、vLLM と LLM Compressor の新しいバージョンが含まれています。
-
vLLM v0.8.4 以降、900 件以上のアップストリームコミット。新しい機能には、FP8 融合型 Mixture of Experts (MoE) カーネル、14 個の新しいモデルのサポート、
/server_infoエンドポイント、動的 LoRA ホットリロードが含まれます。
-
vLLM v0.8.4 以降、900 件以上のアップストリームコミット。新しい機能には、FP8 融合型 Mixture of Experts (MoE) カーネル、14 個の新しいモデルのサポート、
- LLM Compressor v0.5.1
- Red Hat AI Inference Server コンテナーベースは、PyTorch 2.7 と Triton 3.2 に構築されるようになりました。
- Red Hat AI Inference Server は、FIPS 準拠の Red Hat Enterprise Linux (RHEL) ホストで完全にサポートされるようになりました。
- Red Hat AI Inference Server でサポートされる製品とハードウェア設定が拡張されました。詳細は、サポートされている製品およびハードウェア設定 を参照してください。
| 機能 | 利点 | サポートされている GPU |
|---|---|---|
| Blackwell サポート | FP8 カーネルと完全な CUDA Graph アクセラレーションを備えた NVIDIA B200 コンピュート機能 10.0 GPU で実行 | NVIDIA Blackwell |
| ROCm 上の FP8 KV キャッシュ | 精度を損なうことなくコンテキストウィンドウが約 2 倍に拡大 | すべての AMD GPU |
| Skinny GEMM | 推論のレイテンシーが約 10% 低下 | AMD MI300X |
| フル CUDA Graph モード | 小規模モデルの平均出力トークン時間 (TPOT) が 6-8% 改善されました。 | NVIDIA A100 および H100 |
| 自動 FP16 フォールバック | NVIDIA T4 GPU など、手動フラグのない Ampere 以前のカードでも安定して動作します。 | 古い NVIDIA GPU |
2.1. 新しいモデルが有効に リンクのコピーリンクがクリップボードにコピーされました!
Red Hat AI Inference Server 3.1 では、次のモデルを有効にすることで機能が拡張されます。
vLLM バージョン 0.8.5 で追加:
- Qwen3 および Qwen3MoE
- ModernBERT
- Granite Speech
- PLaMo2
- Kimi-VL
- Snowflake Arctic Embed
vLLM バージョン 0.9.0 で追加:
- MiMo-7B
- MiniMax-VL-01
- Ovis 1.6、Ovis 2
- Granite 4
- FalconH1
- LlamaGuard4
2.2. 新しい開発者向け機能 リンクのコピーリンクがクリップボードにコピーされました!
- /server_info REST エンドポイント
- 可観測性と自動化のためにモデル、KV キャッシュ、デバイス設定をクエリーします。
- 動的 LoRA ホットリロード
- ダウンタイムなしで URL から微調整されたアダプターを交換します。
- vllm-bench CLI
- 即時のレイテンシーとスループットのサイズ設定を可能にする "コンテナー内出荷ツール"。
- より高速な段階的なトークン化解除
- CUDA および ROCm GPU では、ストリーミング応答が 2 倍の速さで開始します。
- torch.compile キャッシュ
- キャッシュされた最初のプロンプトのコンパイルにより、ホストの再起動時のウォームアップ時間が短縮されます。
2.3. 新しい操作機能 リンクのコピーリンクがクリップボードにコピーされました!
- 総所有コスト (TCO) の削減
- FP8/INT8 カーネルとスキニー GEMM により、同じ GPU で 1 秒あたりに処理できるトークン数が増えます。
- AMD GPU 上のより大きなモデル
- ROCm は、FP8 および融合型 MoE モデルのパフォーマンスにおいて CUDA に匹敵するようになり、AMD MI300X は第一級のデプロイメントターゲットになりました。
- 運用の俊敏性
-
LoRA ホットスワップと
/server_infoエンドポイントにより、Pod を再起動せずにモデルの微調整のための継続的な統合とデプロイメントが可能になります。
第3章 既知の問題 リンクのコピーリンクがクリップボードにコピーされました!
-
--enable-chunked-prefillを有効にした Red Hat AI Inference Server 3.1 コンテナーイメージを使用して NVIDIA T4 アクセラレーターにモデルをデプロイすると、チャットまたはテキスト補完クエリーによってモデル推論がクラッシュして再起動します。この問題を回避するには、モデルをデプロイするときに--enable-chunked-prefillフラグを削除します。