第6章 非推奨のメトリクス
次のメトリクスは非推奨になり、AI Inference Server の今後のバージョンでは削除される予定です。
-
vllm:num_requests_swapped -
vllm:cpu_cache_usage_perc -
vllm:cpu_prefix_cache_hit_rate(KV キャッシュオフロードは V1 では使用されません)。 -
vllm:gpu_prefix_cache_hit_rate。このメトリクスは、V1 では queries+hits カウンターに置き換えられます。 -
vllm:time_in_queue_requests。このメトリクスはvllm:request_queue_time_secondsによって複製されます。 -
vllm:model_forward_time_milliseconds -
vllm:model_execute_time_milliseconds。代わりに、事前入力、デコード、または推論時間のメトリクスを使用する必要があります。
重要
バージョン X.Y でメトリクスが非推奨になると、バージョン X.Y+1 では非表示になりますが、--show-hidden-metrics-for-version=X.Y エスケープハッチを使用して再度有効化できます。非推奨のメトリクスは、次のバージョン X.Y+2 で完全に削除されます。