1.2. 新开发人员功能
- inference 引擎更新
- V0 引擎清理 - 删除旧的 CPU/XPU/TPU V0 后端。
-
可以使用
-async-scheduling
标志来启用实验性异步调度,将引擎核心调度与 GPU 运行程序重叠,以提高推测吞吐量。 -
通过在捕获前调用
gc.freeze
来减少 CUDA 图形的启动时间。
- 性能改进
- 48% 将微批量令牌用于并发请求来减少 48%
- 添加了 fused MLA QKV 和 strided layernorm。
- 为 Mamba 模型添加了 Triton causal-conv1d。
- 新的量化选项
- 对于 Mixture of practicess 模型的 Mixture 量化。
- BNB (Bits 和 Bytes)支持 Mixtral 模型。
- 特定于硬件的量化改进。
- 扩展模型支持
- 带有 EAGLE 规范的解码支持的 Llama 4。
- EXAONE 4.0 和 Microsoft Phi-4-mini 模型系列.
- Hunyuan V1 Dense 和 Ling MoE 架构.
- OpenAI 兼容性
- 添加了新的 OpenAI Responses API 实现。
-
添加了使用所需选择和
$defs
调用的工具。
- 依赖项更新
- Red Hat AI Inference Server Google TPU 容器镜像在夜间使用 PyTorch 2.9.0。
- NVIDIA CUDA 使用 PyTorch 2.7.1。
- 在 PyTorch 2.7.0 上保持 AMD ROCm。
- FlashInfer 库更新至 v0.2.8rc1。