第 6 章 AI Inference 服务器指标

AI Inference Server 会公开 vLLM 指标，用于监控系统的健康状况。

Expand

表 6.1. vLLM 指标
指标名称	描述
`vllm:num_requests_running`	当前在 GPU 上运行的请求数。
`vllm:num_requests_waiting`	等待处理的请求数。
`vllm:lora_requests_info`	在 LoRA 请求上运行统计信息。
`vllm:num_requests_swapped`	交换到 CPU 的请求数。弃用：V1 中不使用 KV 缓存卸载。
`vllm:gpu_cache_usage_perc`	GPU KV-cache 使用。值 1 表示 100% 使用。
`vllm:cpu_cache_usage_perc`	CPU KV-cache 使用。值 1 表示 100% 使用。弃用：V1 中不使用 KV 缓存卸载。
`vllm:cpu_prefix_cache_hit_rate`	CPU 前缀缓存块命中率。弃用：V1 中不使用 KV 缓存卸载。
`vllm:gpu_prefix_cache_hit_rate`	GPU 前缀缓存块命中率。deprecated: 使用 `vllm:gpu_prefix_cache_queries` 和 `vllm:gpu_prefix_cache_hits` in V1。
`vllm:num_preemptions_total`	引擎的抢占数量。
`vllm:prompt_tokens_total`	处理预先填充令牌的总数。
`vllm:generation_tokens_total`	处理的生成令牌总数。
`vllm:iteration_tokens_total`	每个引擎步骤的令牌数量直方图。
`vllm:time_to_first_token_seconds`	以秒为单位到第一个令牌的直方图。
`vllm:time_per_output_token_seconds`	每输出令牌的直方图（以秒为单位）。
`vllm:e2e_request_latency_seconds`	端到端请求延迟（以秒为单位）。
`vllm:request_queue_time_seconds`	请求在 WAITING 阶段花费的时间直方图。
`vllm:request_inference_time_seconds`	请求在 RUNNING 阶段花费的时间直方图。
`vllm:request_prefill_time_seconds`	请求在 PREFILL 阶段花费的时间直方图。
`vllm:request_decode_time_seconds`	请求在 DECODE 阶段花费的时间直方图。
`vllm:time_in_queue_requests`	请求在队列中花费的时间（以秒为单位）。deprecated: 使用 `vllm:request_queue_time_seconds` 替代。
`vllm:model_forward_time_milliseconds`	模型向前传递的时间直方图（毫秒）。弃用：使用 prefill/decode/inference 时间指标。
`vllm:model_execute_time_milliseconds`	模型执行功能所花费的时间（毫秒）。弃用：使用 prefill/decode/inference 时间指标。
`vllm:request_prompt_tokens`	处理预填充令牌数量的直方图。
`vllm:request_generation_tokens`	处理的生成令牌数量的直方图。
`vllm:request_max_num_generation_tokens`	请求生成令牌的最大数量的直方图。
`vllm:request_params_n`	`n` 请求参数的直方图。
`vllm:request_params_max_tokens`	`max_tokens` 请求参数的直方图。
`vllm:request_success_total`	成功处理的请求计数。
`vllm:spec_decode_draft_acceptance_rate`	规范令牌接受率。
`vllm:spec_decode_efficiency`	监管解码系统效率.
`vllm:spec_decode_num_accepted_tokens_total`	接受的令牌总数。
`vllm:spec_decode_num_draft_tokens_total`	令牌草案总数.
`vllm:spec_decode_num_emitted_tokens_total`	发出的令牌总数。

第 6 章 AI Inference 服务器指标

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links