2.2. 新开发人员功能


改进了调度程序性能
vLLM 调度程序 API CachedRequestData 类已更新,从而提高了对象和缓存的 sampler-ID 存储的性能。
CUDA 图形执行
  • CUDA 图形执行现在可用于所有 FlashAttention-3 (FA3)和 FlashMLA 路径,包括前缀缓存。
  • 新的 live CUDA 图形捕获进度条可以更轻松地调试。
调度
优先级调度现在在 vLLM V1 引擎中实施。
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat