2.2. 新开发人员功能改进了调度程序性能 vLLM 调度程序 API CachedRequestData 类已更新,从而提高了对象和缓存的 sampler-ID 存储的性能。 CUDA 图形执行 CUDA 图形执行现在可用于所有 FlashAttention-3 (FA3)和 FlashMLA 路径,包括前缀缓存。 新的 live CUDA 图形捕获进度条可以更轻松地调试。 调度 优先级调度现在在 vLLM V1 引擎中实施。 前一个下一个