第2章新機能および機能拡張

このリリースには、vLLM と LLM Compressor の新しいバージョンが含まれています。
- vLLM v0.9.0.1
  - vLLM v0.8.4 以降、900 件以上のアップストリームコミット。新しい機能には、FP8 融合型 Mixture of Experts (MoE) カーネル、14 個の新しいモデルのサポート、/server_info エンドポイント、動的 LoRA ホットリロードが含まれます。
- LLM Compressor v0.5.1
Red Hat AI Inference Server コンテナーベースは、PyTorch 2.7 と Triton 3.2 に構築されるようになりました。
Red Hat AI Inference Server は、FIPS 準拠の Red Hat Enterprise Linux (RHEL) ホストで完全にサポートされるようになりました。
Red Hat AI Inference Server でサポートされる製品とハードウェア設定が拡張されました。詳細は、サポートされている製品およびハードウェア設定を参照してください。

Expand

表2.1 AI アクセラレーターのパフォーマンスのハイライト
機能	利点	サポートされている GPU
Blackwell サポート	FP8 カーネルと完全な CUDA Graph アクセラレーションを備えた NVIDIA B200 コンピュート機能 10.0 GPU で実行	NVIDIA Blackwell
ROCm 上の FP8 KV キャッシュ	精度を損なうことなくコンテキストウィンドウが約 2 倍に拡大	すべての AMD GPU
Skinny GEMM	推論のレイテンシーが約 10% 低下	AMD MI300X
フル CUDA Graph モード	小規模モデルの平均出力トークン時間 (TPOT) が 6-8% 改善されました。	NVIDIA A100 および H100
自動 FP16 フォールバック	NVIDIA T4 GPU など、手動フラグのない Ampere 以前のカードでも安定して動作します。	古い NVIDIA GPU

2.1. 新しいモデルが有効に
リンクのコピー

Red Hat AI Inference Server 3.1 では、次のモデルを有効にすることで機能が拡張されます。