2.2. 新开发人员功能/server_info REST endpoint 查询模型、KV 缓存以及可观察性和自动化的设备设置。 动态 LoRA 热重新加载 从 URL 中交换调优的适配器,零停机时间。 vllm-bench CLI 用于即时延迟和吞吐量大小的"ship-in-container"工具。 更快地增量分离 在 CUDA 和 ROCm GPU 上,流响应启动两次。 torch.compile 缓存 缓存的第一个提示会在主机重启后编译短暂的温时间。 前一个下一个