第 6 章 AI Inference 服务器指标


AI Inference Server 会公开 vLLM 指标,用于监控系统的健康状况。

表 6.1. vLLM 指标
指标名称描述

vllm:num_requests_running

当前在 GPU 上运行的请求数。

vllm:num_requests_waiting

等待处理的请求数。

vllm:lora_requests_info

在 LoRA 请求上运行统计信息。

vllm:num_requests_swapped

交换到 CPU 的请求数。弃用:V1 中不使用 KV 缓存卸载。

vllm:gpu_cache_usage_perc

GPU KV-cache 使用。值 1 表示 100% 使用。

vllm:cpu_cache_usage_perc

CPU KV-cache 使用。值 1 表示 100% 使用。弃用:V1 中不使用 KV 缓存卸载。

vllm:cpu_prefix_cache_hit_rate

CPU 前缀缓存块命中率。弃用:V1 中不使用 KV 缓存卸载。

vllm:gpu_prefix_cache_hit_rate

GPU 前缀缓存块命中率。deprecated: 使用 vllm:gpu_prefix_cache_queriesvllm:gpu_prefix_cache_hits in V1。

vllm:num_preemptions_total

引擎的抢占数量。

vllm:prompt_tokens_total

处理预先填充令牌的总数。

vllm:generation_tokens_total

处理的生成令牌总数。

vllm:iteration_tokens_total

每个引擎步骤的令牌数量直方图。

vllm:time_to_first_token_seconds

以秒为单位到第一个令牌的直方图。

vllm:time_per_output_token_seconds

每输出令牌的直方图(以秒为单位)。

vllm:e2e_request_latency_seconds

端到端请求延迟(以秒为单位)。

vllm:request_queue_time_seconds

请求在 WAITING 阶段花费的时间直方图。

vllm:request_inference_time_seconds

请求在 RUNNING 阶段花费的时间直方图。

vllm:request_prefill_time_seconds

请求在 PREFILL 阶段花费的时间直方图。

vllm:request_decode_time_seconds

请求在 DECODE 阶段花费的时间直方图。

vllm:time_in_queue_requests

请求在队列中花费的时间(以秒为单位)。deprecated: 使用 vllm:request_queue_time_seconds 替代。

vllm:model_forward_time_milliseconds

模型向前传递的时间直方图(毫秒)。弃用 :使用 prefill/decode/inference 时间指标。

vllm:model_execute_time_milliseconds

模型执行功能所花费的时间(毫秒)。弃用 :使用 prefill/decode/inference 时间指标。

vllm:request_prompt_tokens

处理预填充令牌数量的直方图。

vllm:request_generation_tokens

处理的生成令牌数量的直方图。

vllm:request_max_num_generation_tokens

请求生成令牌的最大数量的直方图。

vllm:request_params_n

n 请求参数的直方图。

vllm:request_params_max_tokens

max_tokens 请求参数的直方图。

vllm:request_success_total

成功处理的请求计数。

vllm:spec_decode_draft_acceptance_rate

规范令牌接受率。

vllm:spec_decode_efficiency

监管解码系统效率.

vllm:spec_decode_num_accepted_tokens_total

接受的令牌总数。

vllm:spec_decode_num_draft_tokens_total

令牌草案总数.

vllm:spec_decode_num_emitted_tokens_total

发出的令牌总数。

返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat