第6章 AI Inference Server メトリクス


AI Inference Server は、システム健全性の監視に使用できる vLLM メトリクスを公開します。

Expand
表6.1 vLLM メトリクス
メトリクス名説明

vllm:num_requests_running

現在 GPU 上で実行中のリクエストの数。

vllm:num_requests_waiting

処理を待機しているリクエストの数。

vllm:lora_requests_info

LoRA リクエストに関する統計を実行しています。

vllm:num_requests_swapped

CPU にスワップされたリクエストの数。非推奨: KV キャッシュオフロードは V1 では使用されません。

vllm:gpu_cache_usage_perc

GPU KV キャッシュの使用量。値が 1 の場合、使用率は 100% になります。

vllm:cpu_cache_usage_perc

CPU KV キャッシュの使用量。値が 1 の場合、使用率は 100% になります。非推奨: KV キャッシュオフロードは V1 では使用されません。

vllm:cpu_prefix_cache_hit_rate

CPU 接頭辞キャッシュブロックのヒット率。非推奨: KV キャッシュオフロードは V1 では使用されません。

vllm:gpu_prefix_cache_hit_rate

GPU 接頭辞キャッシュブロックのヒット率。非推奨: V1 では vllm:gpu_prefix_cache_queriesvllm:gpu_prefix_cache_hits を使用してください。

vllm:num_preemptions_total

エンジンからのプリエンプションの累計数。

vllm:prompt_tokens_total

処理された事前入力トークンの合計数。

vllm:generation_tokens_total

処理された生成トークンの合計数。

vllm:iteration_tokens_total

エンジンステップごとのトークン数のヒストグラム。

vllm:time_to_first_token_seconds

最初のトークンまでの時間 (秒) のヒストグラム。

vllm:time_per_output_token_seconds

出力トークンあたりの時間 (秒) のヒストグラム。

vllm:e2e_request_latency_seconds

エンドツーエンドのリクエスト遅延のヒストグラム (秒単位)。

vllm:request_queue_time_seconds

リクエストが WAITING フェーズにある時間を示すヒストグラム。

vllm:request_inference_time_seconds

リクエストが RUNNING フェーズにある時間を示すヒストグラム。

vllm:request_prefill_time_seconds

リクエストが PREFILL フェーズにある時間を示すヒストグラム。

vllm:request_decode_time_seconds

リクエストが DECODE フェーズにある時間を示すヒストグラム。

vllm:time_in_queue_requests

リクエストがキュー内にいた時間 (秒単位) を示すヒストグラム。非推奨: 代わりに vllm:request_queue_time_seconds を使用してください。

vllm:model_forward_time_milliseconds

モデルの順伝播工程に費やされた時間 (ミリ秒単位) を示すヒストグラム。非推奨: 代わりに、事前入力/デコード/推論時間のメトリクスを使用してください。

vllm:model_execute_time_milliseconds

モデル実行関数に費やされた時間 (ミリ秒単位) を示すヒストグラム。非推奨: 代わりに、事前入力/デコード/推論時間のメトリクスを使用してください。

vllm:request_prompt_tokens

処理された事前入力トークンの数のヒストグラム。

vllm:request_generation_tokens

処理された世代トークンの数のヒストグラム。

vllm:request_max_num_generation_tokens

要求された生成トークンの最大数のヒストグラム。

vllm:request_params_n

n 番目のリクエストパラメーターのヒストグラム。

vllm:request_params_max_tokens

max_tokens リクエストパラメーターのヒストグラム。

vllm:request_success_total

正常に処理されたリクエストの数。

vllm:spec_decode_draft_acceptance_rate

推測的なトークンの受け入れ率。

vllm:spec_decode_efficiency

推測的デコーディングのシステム効率。

vllm:spec_decode_num_accepted_tokens_total

受け入れられたトークンの合計数。

vllm:spec_decode_num_draft_tokens_total

ドラフトトークンの合計数。

vllm:spec_decode_num_emitted_tokens_total

発行されたトークンの合計数。

トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat