第6章 AI Inference Server メトリクス

AI Inference Server は、システム健全性の監視に使用できる vLLM メトリクスを公開します。

Expand

表6.1 vLLM メトリクス
メトリクス名	説明
`vllm:num_requests_running`	現在 GPU 上で実行中のリクエストの数。
`vllm:num_requests_waiting`	処理を待機しているリクエストの数。
`vllm:lora_requests_info`	LoRA リクエストに関する統計を実行しています。
`vllm:num_requests_swapped`	CPU にスワップされたリクエストの数。非推奨: KV キャッシュオフロードは V1 では使用されません。
`vllm:gpu_cache_usage_perc`	GPU KV キャッシュの使用量。値が 1 の場合、使用率は 100% になります。
`vllm:cpu_cache_usage_perc`	CPU KV キャッシュの使用量。値が 1 の場合、使用率は 100% になります。非推奨: KV キャッシュオフロードは V1 では使用されません。
`vllm:cpu_prefix_cache_hit_rate`	CPU 接頭辞キャッシュブロックのヒット率。非推奨: KV キャッシュオフロードは V1 では使用されません。
`vllm:gpu_prefix_cache_hit_rate`	GPU 接頭辞キャッシュブロックのヒット率。非推奨: V1 では `vllm:gpu_prefix_cache_queries` と `vllm:gpu_prefix_cache_hits` を使用してください。
`vllm:num_preemptions_total`	エンジンからのプリエンプションの累計数。
`vllm:prompt_tokens_total`	処理された事前入力トークンの合計数。
`vllm:generation_tokens_total`	処理された生成トークンの合計数。
`vllm:iteration_tokens_total`	エンジンステップごとのトークン数のヒストグラム。
`vllm:time_to_first_token_seconds`	最初のトークンまでの時間 (秒) のヒストグラム。
`vllm:time_per_output_token_seconds`	出力トークンあたりの時間 (秒) のヒストグラム。
`vllm:e2e_request_latency_seconds`	エンドツーエンドのリクエスト遅延のヒストグラム (秒単位)。
`vllm:request_queue_time_seconds`	リクエストが WAITING フェーズにある時間を示すヒストグラム。
`vllm:request_inference_time_seconds`	リクエストが RUNNING フェーズにある時間を示すヒストグラム。
`vllm:request_prefill_time_seconds`	リクエストが PREFILL フェーズにある時間を示すヒストグラム。
`vllm:request_decode_time_seconds`	リクエストが DECODE フェーズにある時間を示すヒストグラム。
`vllm:time_in_queue_requests`	リクエストがキュー内にいた時間 (秒単位) を示すヒストグラム。非推奨: 代わりに `vllm:request_queue_time_seconds` を使用してください。
`vllm:model_forward_time_milliseconds`	モデルの順伝播工程に費やされた時間 (ミリ秒単位) を示すヒストグラム。非推奨: 代わりに、事前入力/デコード/推論時間のメトリクスを使用してください。
`vllm:model_execute_time_milliseconds`	モデル実行関数に費やされた時間 (ミリ秒単位) を示すヒストグラム。非推奨: 代わりに、事前入力/デコード/推論時間のメトリクスを使用してください。
`vllm:request_prompt_tokens`	処理された事前入力トークンの数のヒストグラム。
`vllm:request_generation_tokens`	処理された世代トークンの数のヒストグラム。
`vllm:request_max_num_generation_tokens`	要求された生成トークンの最大数のヒストグラム。
`vllm:request_params_n`	`n` 番目のリクエストパラメーターのヒストグラム。
`vllm:request_params_max_tokens`	`max_tokens` リクエストパラメーターのヒストグラム。
`vllm:request_success_total`	正常に処理されたリクエストの数。
`vllm:spec_decode_draft_acceptance_rate`	推測的なトークンの受け入れ率。
`vllm:spec_decode_efficiency`	推測的デコーディングのシステム効率。
`vllm:spec_decode_num_accepted_tokens_total`	受け入れられたトークンの合計数。
`vllm:spec_decode_num_draft_tokens_total`	ドラフトトークンの合計数。
`vllm:spec_decode_num_emitted_tokens_total`	発行されたトークンの合計数。

第6章 AI Inference Server メトリクス

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links