2.2. 新しい開発者向け機能
- スケジューラーのパフォーマンス向上
-
vLLM スケジューラー API
CachedRequestDataクラスが更新され、オブジェクトおよびキャッシュされたサンプラー ID ストアのパフォーマンスが向上しました。 - CUDA グラフ実行
- CUDA グラフ実行は、接頭辞キャッシュを含むすべての FlashAttention-3 (FA3) および FlashMLA パスで利用できるようになりました。
- ライブ CUDA グラフのキャプチャー進捗バーが新たに追加され、デバッグが容易になります。
- スケジューリング
- 優先スケジューリングが vLLM V1 エンジンに実装されました。