1.2. 新开发人员功能

inference 引擎更新

V0 引擎清理 - 删除旧的 CPU/XPU/TPU V0 后端。
可以使用 -async-scheduling 标志来启用实验性异步调度，将引擎核心调度与 GPU 运行程序重叠，以提高推测吞吐量。
通过在捕获前调用 gc.freeze 来减少 CUDA 图形的启动时间。

性能改进

48% 将微批量令牌用于并发请求来减少 48%
添加了 fused MLA QKV 和 strided layernorm。
为 Mamba 模型添加了 Triton causal-conv1d。

新的量化选项

对于 Mixture of practicess 模型的 Mixture 量化。
BNB (Bits 和 Bytes)支持 Mixtral 模型。
特定于硬件的量化改进。

扩展模型支持

带有 EAGLE 规范的解码支持的 Llama 4。
EXAONE 4.0 和 Microsoft Phi-4-mini 模型系列.
Hunyuan V1 Dense 和 Ling MoE 架构.

OpenAI 兼容性

添加了新的 OpenAI Responses API 实现。
添加了使用所需选择和 $defs 调用的工具。

依赖项更新

Red Hat AI Inference Server Google TPU 容器镜像在夜间使用 PyTorch 2.9.0。
NVIDIA CUDA 使用 PyTorch 2.7.1。
在 PyTorch 2.7.0 上保持 AMD ROCm。
FlashInfer 库更新至 v0.2.8rc1。

返回顶部

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务，以及可以信赖的内容，帮助红帽用户创新并实现他们的目标。了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情，请参阅红帽博客.

關於紅帽

我们提供强化的解决方案，使企业能够更轻松地跨平台和环境（从核心数据中心到网络边缘）工作。

Theme

© 2025 Red Hat