第6章 AI Inference Server メトリクス
AI Inference Server は、システム健全性の監視に使用できる vLLM メトリクスを公開します。
メトリクス名 | 説明 |
---|---|
| 現在 GPU 上で実行中のリクエストの数。 |
| 処理を待機しているリクエストの数。 |
| LoRA リクエストに関する統計を実行しています。 |
| CPU にスワップされたリクエストの数。非推奨: KV キャッシュオフロードは V1 では使用されません。 |
| GPU KV キャッシュの使用量。値が 1 の場合、使用率は 100% になります。 |
| CPU KV キャッシュの使用量。値が 1 の場合、使用率は 100% になります。非推奨: KV キャッシュオフロードは V1 では使用されません。 |
| CPU 接頭辞キャッシュブロックのヒット率。非推奨: KV キャッシュオフロードは V1 では使用されません。 |
|
GPU 接頭辞キャッシュブロックのヒット率。非推奨: V1 では |
| エンジンからのプリエンプションの累計数。 |
| 処理された事前入力トークンの合計数。 |
| 処理された生成トークンの合計数。 |
| エンジンステップごとのトークン数のヒストグラム。 |
| 最初のトークンまでの時間 (秒) のヒストグラム。 |
| 出力トークンあたりの時間 (秒) のヒストグラム。 |
| エンドツーエンドのリクエスト遅延のヒストグラム (秒単位)。 |
| リクエストが WAITING フェーズにある時間を示すヒストグラム。 |
| リクエストが RUNNING フェーズにある時間を示すヒストグラム。 |
| リクエストが PREFILL フェーズにある時間を示すヒストグラム。 |
| リクエストが DECODE フェーズにある時間を示すヒストグラム。 |
|
リクエストがキュー内にいた時間 (秒単位) を示すヒストグラム。非推奨: 代わりに |
| モデルの順伝播工程に費やされた時間 (ミリ秒単位) を示すヒストグラム。非推奨: 代わりに、事前入力/デコード/推論時間のメトリクスを使用してください。 |
| モデル実行関数に費やされた時間 (ミリ秒単位) を示すヒストグラム。非推奨: 代わりに、事前入力/デコード/推論時間のメトリクスを使用してください。 |
| 処理された事前入力トークンの数のヒストグラム。 |
| 処理された世代トークンの数のヒストグラム。 |
| 要求された生成トークンの最大数のヒストグラム。 |
|
|
|
|
| 正常に処理されたリクエストの数。 |
| 推測的なトークンの受け入れ率。 |
| 推測的デコーディングのシステム効率。 |
| 受け入れられたトークンの合計数。 |
| ドラフトトークンの合計数。 |
| 発行されたトークンの合計数。 |