第2章 新機能および機能拡張
このリリースには、vLLM と LLM Compressor の新しいバージョンが含まれています。
-
vLLM v0.8.4 以降、900 件以上のアップストリームコミット。新しい機能には、FP8 融合型 Mixture of Experts (MoE) カーネル、14 個の新しいモデルのサポート、
/server_infoエンドポイント、動的 LoRA ホットリロードが含まれます。
-
vLLM v0.8.4 以降、900 件以上のアップストリームコミット。新しい機能には、FP8 融合型 Mixture of Experts (MoE) カーネル、14 個の新しいモデルのサポート、
- LLM Compressor v0.5.1
- Red Hat AI Inference Server コンテナーベースは、PyTorch 2.7 と Triton 3.2 に構築されるようになりました。
- Red Hat AI Inference Server は、FIPS 準拠の Red Hat Enterprise Linux (RHEL) ホストで完全にサポートされるようになりました。
- Red Hat AI Inference Server でサポートされる製品とハードウェア設定が拡張されました。詳細は、サポートされている製品およびハードウェア設定 を参照してください。
| 機能 | 利点 | サポートされている GPU |
|---|---|---|
| Blackwell サポート | FP8 カーネルと完全な CUDA Graph アクセラレーションを備えた NVIDIA B200 コンピュート機能 10.0 GPU で実行 | NVIDIA Blackwell |
| ROCm 上の FP8 KV キャッシュ | 精度を損なうことなくコンテキストウィンドウが約 2 倍に拡大 | すべての AMD GPU |
| Skinny GEMM | 推論のレイテンシーが約 10% 低下 | AMD MI300X |
| フル CUDA Graph モード | 小規模モデルの平均出力トークン時間 (TPOT) が 6-8% 改善されました。 | NVIDIA A100 および H100 |
| 自動 FP16 フォールバック | NVIDIA T4 GPU など、手動フラグのない Ampere 以前のカードでも安定して動作します。 | 古い NVIDIA GPU |
2.1. 新しいモデルが有効に リンクのコピーリンクがクリップボードにコピーされました!
Red Hat AI Inference Server 3.1 では、次のモデルを有効にすることで機能が拡張されます。
vLLM バージョン 0.8.5 で追加:
- Qwen3 および Qwen3MoE
- ModernBERT
- Granite Speech
- PLaMo2
- Kimi-VL
- Snowflake Arctic Embed
vLLM バージョン 0.9.0 で追加:
- MiMo-7B
- MiniMax-VL-01
- Ovis 1.6、Ovis 2
- Granite 4
- FalconH1
- LlamaGuard4