ホーム
製品
Red Hat AI Inference Server
3.2
vLLM のサーバー引数
第4章 AI Inference Server のメトリクスの表示

第4章 AI Inference Server のメトリクスの表示

vLLM は、AI Inference Server OpenAI 互換 API サーバーの /metrics エンドポイントを介してさまざまなメトリクスを公開します。

Python または Docker を使用してサーバーを起動できます。

手順

AI Inference Server サーバーを起動し、次の例に示すようにモデルを読み込みます。このコマンドは、OpenAI 互換 API も公開します。
```
$ vllm serve unsloth/Llama-3.2-1B-Instruct
```

OpenAI 互換 API の /metrics エンドポイントをクエリーして、サーバーから最新のメトリクスを取得します。

$ curl http://0.0.0.0:8000/metrics

出力例

# HELP vllm:iteration_tokens_total Histogram of number of tokens per engine_step.
# TYPE vllm:iteration_tokens_total histogram
vllm:iteration_tokens_total_sum{model_name="unsloth/Llama-3.2-1B-Instruct"} 0.0
vllm:iteration_tokens_total_bucket{le="1.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="8.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="16.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="32.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="64.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="128.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="256.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="512.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
#...

第4章 AI Inference Server のメトリクスの表示

詳細情報

試用、購入および販売

コミュニティー

会社概要

多様性を受け入れるオープンソースの強化

Red Hat ドキュメントについて

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links