1.2. 新开发人员功能


inference 引擎更新
  • V0 引擎清理 - 删除旧的 CPU/XPU/TPU V0 后端。
  • 可以使用 -async-scheduling 标志来启用实验性异步调度,将引擎核心调度与 GPU 运行程序重叠,以提高推测吞吐量。
  • 通过在捕获前调用 gc.freeze 来减少 CUDA 图形的启动时间。
性能改进
  • 48% 将微批量令牌用于并发请求来减少 48%
  • 添加了 fused MLA QKV 和 strided layernorm。
  • 为 Mamba 模型添加了 Triton causal-conv1d。
新的量化选项
  • 对于 Mixture of practicess 模型的 Mixture 量化。
  • BNB (Bits 和 Bytes)支持 Mixtral 模型。
  • 特定于硬件的量化改进。
扩展模型支持
  • 带有 EAGLE 规范的解码支持的 Llama 4。
  • EXAONE 4.0 和 Microsoft Phi-4-mini 模型系列.
  • Hunyuan V1 Dense 和 Ling MoE 架构.
OpenAI 兼容性
  • 添加了新的 OpenAI Responses API 实现。
  • 添加了使用所需选择和 $defs 调用的工具。
依赖项更新
  • Red Hat AI Inference Server Google TPU 容器镜像在夜间使用 PyTorch 2.9.0。
  • NVIDIA CUDA 使用 PyTorch 2.7.1。
  • 在 PyTorch 2.7.0 上保持 AMD ROCm。
  • FlashInfer 库更新至 v0.2.8rc1。
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat