第 6 章 AI Inference 服务器指标
AI Inference Server 会公开 vLLM 指标,用于监控系统的健康状况。
指标名称 | 描述 |
---|---|
| 当前在 GPU 上运行的请求数。 |
| 等待处理的请求数。 |
| 在 LoRA 请求上运行统计信息。 |
| 交换到 CPU 的请求数。弃用:V1 中不使用 KV 缓存卸载。 |
| GPU KV-cache 使用。值 1 表示 100% 使用。 |
| CPU KV-cache 使用。值 1 表示 100% 使用。弃用:V1 中不使用 KV 缓存卸载。 |
| CPU 前缀缓存块命中率。弃用:V1 中不使用 KV 缓存卸载。 |
|
GPU 前缀缓存块命中率。deprecated: 使用 |
| 引擎的抢占数量。 |
| 处理预先填充令牌的总数。 |
| 处理的生成令牌总数。 |
| 每个引擎步骤的令牌数量直方图。 |
| 以秒为单位到第一个令牌的直方图。 |
| 每输出令牌的直方图(以秒为单位)。 |
| 端到端请求延迟(以秒为单位)。 |
| 请求在 WAITING 阶段花费的时间直方图。 |
| 请求在 RUNNING 阶段花费的时间直方图。 |
| 请求在 PREFILL 阶段花费的时间直方图。 |
| 请求在 DECODE 阶段花费的时间直方图。 |
|
请求在队列中花费的时间(以秒为单位)。deprecated: 使用 |
| 模型向前传递的时间直方图(毫秒)。弃用 :使用 prefill/decode/inference 时间指标。 |
| 模型执行功能所花费的时间(毫秒)。弃用 :使用 prefill/decode/inference 时间指标。 |
| 处理预填充令牌数量的直方图。 |
| 处理的生成令牌数量的直方图。 |
| 请求生成令牌的最大数量的直方图。 |
|
|
|
|
| 成功处理的请求计数。 |
| 规范令牌接受率。 |
| 监管解码系统效率. |
| 接受的令牌总数。 |
| 令牌草案总数. |
| 发出的令牌总数。 |