第6章 非推奨のメトリクス
次のメトリクスは非推奨になり、AI Inference Server の今後のバージョンでは削除される予定です。
-
vllm:num_requests_swapped
-
vllm:cpu_cache_usage_perc
-
vllm:cpu_prefix_cache_hit_rate
(KV キャッシュオフロードは V1 では使用されません)。 -
vllm:gpu_prefix_cache_hit_rate
。このメトリクスは、V1 では queries+hits カウンターに置き換えられます。 -
vllm:time_in_queue_requests
。このメトリクスはvllm:request_queue_time_seconds
によって複製されます。 -
vllm:model_forward_time_milliseconds
-
vllm:model_execute_time_milliseconds
。代わりに、事前入力、デコード、または推論時間のメトリクスを使用する必要があります。
重要
バージョン X.Y
でメトリクスが非推奨になると、バージョン X.Y+1
では非表示になりますが、--show-hidden-metrics-for-version=X.Y
エスケープハッチを使用して再度有効化できます。非推奨のメトリクスは、次のバージョン X.Y+2
で完全に削除されます。